カラクリ、国産CUAモデル「KARAKURI VL2」を開発

カラクリ、国産CUAモデル「KARAKURI VL2」を開発

カラクリ株式会社は、経済産業省の生成AI開発支援プログラム「GENIAC」第3期の成果として、PC操作を自律的に実行する国産CUA（Computer Use Agent）向け視覚言語モデル「KARAKURI VL2」（8Bパラメータ）を開発しました。

ベンチマーク結果と性能向上

自社開発の日本語PC操作ベンチマーク「OSWorld-JP v0.2」（100タスク）で評価した結果、総合スコアではClaude Sonnet 4.6に及ばないものの、画像編集（GIMP）とメール操作（Thunderbird）の2カテゴリでClaude Sonnet 4.6を上回りました。特に、GIMPではClaude Sonnet 4.6の約2倍のスコアを記録し、Thunderbirdでも優位性を示しています。また、ベースモデルとの比較では、複数アプリケーションの横断操作（multi_apps）で約2.8倍のスコア向上を達成しました。

全カテゴリ比較：KARAKURI VL2 vs 海外主要モデル（OSWorld-JP v0.2による評価結果、各スコアは3回実行の平均値）

カテゴリ	タスク数	KARAKURI VL2（8B）	Claude Sonnet 4.6	Claude Sonnet 4.5	GPT-4.1
TOTAL	100	0.331	0.593	0.416	0.050
chrome	13	0.385	0.641	0.539	0.000
gimp	7	0.476	0.238	0.381	0.095
libreoffice_calc	12	0.167	0.806	0.306	0.000
libreoffice_impress	12	0.311	0.833	0.626	0.000
libreoffice_writer	6	0.611	0.889	0.778	0.000
multi_apps（複数アプリ）	27	0.136	0.333	0.189	0.025
os（OS操作）	7	0.714	0.857	0.714	0.429
thunderbird（メール）	4	0.917	0.750	0.583	0.000
vlc	5	0.067	0.667	0.200	0.067
vs_code	7	0.381	0.429	0.381	0.048

※Claude Sonnet 4.6のパラメータ数は非公開です。
※カテゴリ別のタスク数が少ないため、カテゴリ単位のスコアには統計的なばらつきが含まれます。

KARAKURI VL2（8B、総合スコア：0.331）は、ベースモデルの4倍のパラメータ数を持つQwen3-VL-32B-Thinking （総合スコア：0.378）の約88%の性能を達成しており、軽量モデルとしての効率性が示されています。

オープンソースでの公開

本プロジェクトでは、学習済みモデル「KARAKURI VL2」に加え、評価に使用したベンチマーク「OSWorld-JP v0.2」もオープンソースで公開されています。これにより、第三者による結果の再現と、国内におけるCUA研究の共通評価基盤の確立を目指しています。学習用コードについても近日中の公開が予定されています。

学習済みモデル：https://huggingface.co/karakuri-ai/karakuri-vl-2-8b-thinking-2603
ベンチマーク：https://github.com/karakuri-ai/OSWorld-JP

KARAKURI VL2の技術的特長

ローカル環境で動作する軽量モデル
8Bパラメータの軽量設計により、企業のオンプレミス環境での動作が可能です。これにより、機密性の高いデータを外部に送信することなく、セキュアな環境でPC操作の自動化が実現されます。
合成データによる業務特化学習
ネット上に存在しない実業務の操作パターンを合成データとして生成し、学習に活用しています。これにより、コンタクトセンターで日常的に行われる画像編集やメール操作といった特定業務において、汎用モデルを上回る精度が達成されました。
AWS Trainiumによる学習基盤
学習基盤にはAWS Trainiumが採用されています。Qwen3-VLアーキテクチャのTrainium上での大規模学習は、公開事例が確認されていない取り組みです（2026年3月時点）。

開発の背景

大規模言語モデルの進化に伴い、PCをGUI経由で自律操作するCUAが新たなAI応用領域として注目されています。しかし、既存の主要なCUAモデルの多くは英語環境に最適化されており、日本語UIや国内で広く使われる業務ソフトウェアへの対応には課題がありました。

カラクリは2024年のGENIAC第2期において32Bパラメータの視覚言語モデル「KARAKURI VL」を開発しましたが、推論コストやローカル運用に関する課題がありました。第3期では、この課題を解消するため8Bへの軽量化に取り組むとともに、日本語環境でのPC操作能力を客観的に評価するためのベンチマーク「OSWorld-JP v0.2」を新たに開発しました。モデルとベンチマークの双方をオープンソースで公開することで、国内CUA研究の発展基盤を提供することを目指しています。

カラクリ株式会社 CPO 中山智文氏のコメント

カラクリ株式会社のCPO中山智文氏は、国産AIにおいて海外の汎用モデルと同じ土俵で戦うのではなく、日本の産業を支える「現場の磨き上げ（現場力）」をAIの知性に変えることを目指していると述べています。今回の開発では「業界特化」「独自データ」「自前運用」の3つの領域に特化しました。ベンチマーク結果は、総合性能では海外大手モデルとの差があるものの、現場の実務で使われる特定のアプリケーション操作に絞れば、8Bの軽量モデルでも十分な精度が出せることを示しています。また、評価ベンチマーク「OSWorld-JP」をオープンソースで公開することで、国内のCUA研究コミュニティ全体の前進に貢献したい意向です。

技術概要

項目	内容
モデル名	KARAKURI VL2
パラメータ数	8B（80億）
ベースモデル	Qwen3-VL-8B
学習手法	合成データによる独自学習
学習基盤	AWS Trainium
用途	CUA（Computer Use Agent）向け視覚言語モデル
評価ベンチマーク	OSWorld-JP v0.2（自社開発・100タスク・GitHub公開済み）
モデル公開先	HuggingFace（公開済み）
ベンチマーク公開先	GitHub（公開済み）
学習用コード	近日公開予定

今後の展望

カラクリは、KARAKURI VL2を基盤としたAIエージェントアプリケーションのサービス化を推進します。カスタマーサポート領域を起点に、レガシーシステムを含む複数アプリケーション間の操作自動化へ対象を拡大し、自社製品群への統合を進める予定です。ベンチマーク「OSWorld-JP」については、タスク数の拡充と評価カテゴリの追加を進め、国内CUA研究における標準的な評価基盤としての発展を目指します。学習データの拡充とファインチューニング手法の改善により、継続的に精度向上に取り組む方針です。

カラクリ株式会社について

カラクリ株式会社は「FriendlyTechnology」をビジョンに掲げ、大規模言語モデル（LLM）のカスタマーサポートへの実用化を目指すAIスタートアップです。生成AIを活用した顧客対応AIエージェント『GeN』をはじめ、FAQ、オペレーター支援など、顧客接点からバックオフィス業務までを一気通貫で「自働化」するプラットフォームを提供しています。独自のガードレール技術や現場実装チーム（FDE）を強みに、高度なセキュリティと対応品質が求められるエンタープライズ企業にサービスを提供しています。

詳細については、https://karakuri.ai/をご覧ください。

2026年4月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30