Midjourney遇劲敌!谷歌AI绘画4大牛创业,免费试玩Imagen技术,拿下1.2亿天使融资
AI 绘画王座上的 MidJourney,终于迎来强劲对手。
最新挑战者 Ideogram 横空出世,开局就靠免费注册吸引众多目光。
最瞩目的特性:在图中精准生成文字,英伟达科学家范麟熙直接毫不客气地用它画了一个 “It’s over, Midjourney”。
背后公司 Ideogram AI,谷歌 AI 绘画 4 大牛集体离职的创业项目,坐标多伦多,带着 1650 万美元 (约 1.2 亿人民币)种子轮融资席卷而来。
创始团队中前 4 人都是谷歌文生图研究 Imagen 论文作者,组成一个扩散模型顶级研究团队。
谷歌藏着掖着这么久都不给大家玩的先进研究成果,终于被他们给开放出来。
Ideogram AI 种子轮融资由 a16z 和 Index Ventures 领投。
个人投资者中也不乏知名人物,如 OpenAI 创始成员 Andrej Karpathy,强化学习大牛 Pieter Abbeel,Node.js 创始人 Ryan Dahl、GitHub 联合创始人 Tom Preston-Werner 等。
甚至团队的老上司,前谷歌大脑掌门人 Jeff Dean 也有参与。
别看创始团队都是技术出身,Ideogram AI 在宣传造势方面也一点不含糊,直接在𝕏上号召大家刷二创 tag,开启了一波病毒营销。
AI 学会精准画出文字
让 AI 精准画出文字,一直是个难题。虽然 SDXL 和 Midjourney 新出的局部重绘功能有所改善,但网友反馈成功率一直不太高,需要反复尝试。
Ideogram 一搞定这个痛点,直接被网友们玩出花了。
让文字出现在指示牌上、同时适应环境光影,没问题。
做一个咖啡拉花也没问题。
抽象风格的海报,也可以搞出风格合适的字体。
一句话直出品牌 logo 更是生产力属性拉满。
从网友们分享的提示词中也可以看出,增加画文字成功概率的 “咒语” 也很简单,就一个单词:
typography(印刷排版)
不过很可惜的是,它还不太能掌握中文。
抛开文字,Ideogram 的图像生成能力,出图质量可以比肩 MidJourney 和 Stable Diffusion。
如果与 Imagen 使用完全相同的技术,那么使用谷歌 T5 而不是 OpenAI CLIP 作为语言编码模型,意味着 Ideogram 对提示词里空间关系描述的理解还要更强。
有人成功用它生成一组风格一致的图像。
再结合视频生成工具 Pika Labs 直接搞出电影预告片风格的短片。
扩散模型顶级研究团队
Ideogram AI 创始团队共 7 人,其中 4 人都是谷歌 Imagen 的合著者。
其中共同一作 Mohammad Norouzi 任 CEO,他在多伦多大学计算机科学博士就读期间拿到了谷歌 ML 博士奖学金。
毕业后他加入谷歌大脑工作了 7 年,除了生成模型之外也是也是谷歌神经机器翻译团队的原始成员,Hinton 团队自监督对比学习框架 SimCLR 的合著者。
共同一作 William Chan (陈俊乐) 任新公司 CTO,他先后就读于加拿大滑铁卢大学、卡内基梅隆大学。
他 2012 年加入谷歌时先做的机器学习广告工程,后转到谷歌大脑作 NLP 研究。
第三位共同一作 Chitwan Saharia 本科毕业于孟买理工学院,2019 年加入谷歌,现在是 Ideogram 的联合创始人。
第四位联创 Jonathan Ho 博士毕业于 UC 伯克利,曾在 OpenAI 工作一年,后加入谷歌。
他除了是 Imagen 论文的核心贡献者,还是去噪扩散模型奠基之作**《Denoising Diffusion Probabilistic Models》**的一作,这篇论文合著者中的 Pieter Abbeel 也是 Ideogram AI 的投资人。
创始团队中的另外三人,Shayaan Abdullah 曾是 Twitter 的机器学习工程师,于今年 4 月离职,后加入 Ideogram AI。
Jacob Lu 为软件工程师,加入 Ideogram 之前曾在亚马逊等公司任职;Jenny Lei 是软件工程实习生,加入 Ideogram AI 之前曾在谷歌实习。
还要做视频生成
Ideogram AI 的四位联创在谷歌期间,还完成了视频生成的后续工作 Imagen Video。
在一年前就已经实现了生成 1280*768 分辨率、每秒 24 帧的高清视频片段。
实际上在今年 3 月,笔者就曾从投资市场获悉他们的天使轮估值达到 1 亿美元,更多 VC 想给钱而赶不上、投不进,以及他们创业方向的更多消息:
不仅做图像生成,将来还要做视频生成。
无论 Imagen 还是 Imagen Video,谷歌出于安全、伦理等方面考虑都未曾放出试玩、API 或开源代码。
研究成果无法转化为应用,是近年来不少从谷歌离职创业者遇到的共同问题。
如大模型那边的 Transformer 八位作者中,Cohere 创始人 Aidan Gomez 就曾表示离开的原因是 “我在谷歌没有看到大模型发挥它真正的力量”。
Ashish Vaswani 与 Niki Parmar 离开谷歌创办 Adept AI 与 Essential AI 的原因也是 “谷歌希望用 Transformer 优化现有产品,而我们希望创造新产品”。
后来这些研究者所担心的事也确确实实发生了:
尽管 2021 年 5 月(比 ChatGPT 训练数据截止日期还早)谷歌就已经开发出了 LaMDA 对话大模型与聊天机器人,但在推出产品方面有太多顾虑,最终 18 个月后被隔壁 ChatGPT 一手直接面对公众开放抢尽了风头。
……
吸取了这些教训,新成立的 Ideogram AI 也拿出一副尽量开放、先把用户吸引进来玩的架势。
最初宣布了 1000 人测试名额,但没一会就满了。
今天似乎又开放了一些名额,笔者上午注册时并没有遇到排队。
总之名额应该还是有限的,感兴趣的朋友抓紧了。
试玩地址:https://ideogram.ai
参考链接:
[1]https://ideogram.ai/launch
[2]https://x.com/ideogram_ai/status/1694024927853129757
[3]https://x.com/DrJimFan/status/1694358069638275463
[4]https://x.com/WilliamLamkin/status/1694535089575637048