超CLIP准确率11%!伯克利港大阐明「LLM文本-视觉」对齐深层机制