Algorithm

本周选择的算法题是：Minimum Recolors to Get K Consecutive Black Blocks。

class Solution:
    def minimumRecolors(self, blocks: str, k: int) -> int:
        whites = blocks[:k].count('W')
        min_recolors = whites

        for i in range(k, len(blocks)):
            whites += (blocks[i] == 'W') - (blocks[i - k] == 'W')
            min_recolors = min(min_recolors, whites)

        return min_recolors

一个简洁的滑动窗口实现。

Review

The case against self-closing tags in HTML

作者围绕 HTML 中的自闭合标签语法 /> 展开了讨论，认为它是已废弃规范（XML）的残余，不应推广使用。

文章本身没有太多有效的信息，不过了解下 /> 语法的起源、XHTML 的兴衰也挺好。

Tip

https://help.aliyun.com/zh/nas/user-guide/cross-mount-compatibility-faq

在阿里云 NAS 上操作还是要小心一点，如果有大量的 rename 操作会导致 ls 执行失败，从而导致依赖 ls 结果返回的后续操作都无法进行。

EliGen: Entity-Level Controlled Image Generation with Regional Attention

一个可控文生图模型，能精细控制实体位置和细节变化：

传统 Transformer 中的 Cross-Attention 能用于建立不同模态或数据之间的关联，在文生图里它负责将文本语义与 latent space 动态对齐，确保生成的内容符合文本描述。但文本提示的语义仅通过全局注意力传播，难以精确定位实体，比如 “左侧第三棵树”。

Regional Attention 是 EliGen 提出的改进机制，在保持 Cross-Attention 全局对齐能力的同时，引入了空间掩码约束，实现实体级别的细粒度控制，它无需额外的参数，直接改造了扩散模型的注意力模块，能在单次生成中同时控制多个实体的位置、形状和属性，比如 “左侧红色汽车+右侧戴帽子的人”，这样就提高了单次前向传播中的全局 & 局部一致性：

Regional Attention 在扩散过程中，通过全局文本提示约束整体风格和布局
通过区域注意力掩码，将局部实体提示动态注入到对应区域，同时保留全局光照、阴影的一致性
修改局部实体时（如调整主体或颜色），模型自动同步更新周围环境（如反光、色调等），无需额外后处理

EliGen 的训练数据集是通过 Flux 和 Qwen2-VL 生成的：

FLUX.1-dev 生成了 500k 训练图像
基于 Qwen2-VL 72B 的图像理解和 grounding 能力，对训练样本进行了 recaption，同时对图像中的实体的语义和位置信息进行了标注

如下图所示：

现有的文生图像模型（Stable Diffusion、DiT）虽能生成高质量图像，但仅依赖全局文本提示难以实现实体级别的精细控制（如修改单个物体的形状、位置或属性）。EliGen 旨在通过引入区域注意力机制和多模态实体条件解决这一限制，实现更灵活、精确的图像生成与编辑。

Algorithm

Review

Tip

Share