北京一家特别棒的胡辣汤,名字叫方中山
Algorithm
本周选择的算法题是:Minimum Recolors to Get K Consecutive Black Blocks。
class Solution:
def minimumRecolors(self, blocks: str, k: int) -> int:
whites = blocks[:k].count('W')
min_recolors = whites
for i in range(k, len(blocks)):
whites += (blocks[i] == 'W') - (blocks[i - k] == 'W')
min_recolors = min(min_recolors, whites)
return min_recolors
一个简洁的滑动窗口实现。
Review
The case against self-closing tags in HTML
作者围绕 HTML 中的自闭合标签语法 />
展开了讨论,认为它是已废弃规范(XML)的残余,不应推广使用。
文章本身没有太多有效的信息,不过了解下 />
语法的起源、XHTML 的兴衰也挺好。
Tip
https://help.aliyun.com/zh/nas/user-guide/cross-mount-compatibility-faq
在阿里云 NAS 上操作还是要小心一点,如果有大量的 rename 操作会导致 ls 执行失败,从而导致依赖 ls 结果返回的后续操作都无法进行。
Share
EliGen: Entity-Level Controlled Image Generation with Regional Attention
一个可控文生图模型,能精细控制实体位置和细节变化:
传统 Transformer 中的 Cross-Attention 能用于建立不同模态或数据之间的关联,在文生图里它负责将文本语义与 latent space 动态对齐,确保生成的内容符合文本描述。但文本提示的语义仅通过全局注意力传播,难以精确定位实体,比如 “左侧第三棵树”。
Regional Attention 是 EliGen 提出的改进机制,在保持 Cross-Attention 全局对齐能力的同时,引入了空间掩码约束,实现实体级别的细粒度控制,它无需额外的参数,直接改造了扩散模型的注意力模块,能在单次生成中同时控制多个实体的位置、形状和属性,比如 “左侧红色汽车+右侧戴帽子的人”,这样就提高了单次前向传播中的全局 & 局部一致性:
- Regional Attention 在扩散过程中,通过全局文本提示约束整体风格和布局
- 通过区域注意力掩码,将局部实体提示动态注入到对应区域,同时保留全局光照、阴影的一致性
- 修改局部实体时(如调整主体或颜色),模型自动同步更新周围环境(如反光、色调等),无需额外后处理
EliGen 的训练数据集是通过 Flux 和 Qwen2-VL 生成的:
- FLUX.1-dev 生成了 500k 训练图像
- 基于 Qwen2-VL 72B 的图像理解和 grounding 能力,对训练样本进行了 recaption,同时对图像中的实体的语义和位置信息进行了标注
如下图所示:
现有的文生图像模型(Stable Diffusion、DiT)虽能生成高质量图像,但仅依赖全局文本提示难以实现实体级别的精细控制(如修改单个物体的形状、位置或属性)。EliGen 旨在通过引入区域注意力机制和多模态实体条件解决这一限制,实现更灵活、精确的图像生成与编辑。