従来のVLMではテキストが複雑になると誤認識を起こす

従来のVLMではテキストが複雑になると誤認識を起こす