AI工具大全:最新的AI工具推荐

AI工具大全:最新的AI工具推荐

影像剪辑类

  • 描述:一体化视频编辑,就像文档一样简单。
  • Type Studio:通过编辑文本来编辑视频
  • Vidyo.ai:即时将长视频制作成短视频
  • Gling:创作者,把你的时间拿回来吧。我们的人工智能会帮你删掉静音部分并缩短拍摄时间。

Descript 跟Type Studio 做的事情非常相似,简单来说就是帮你把你录好的影片,运用AI 技术判读出逐字稿之后,你只要在逐字稿进行段落的编辑、删减,它就会自动帮你改写对应的影片段落、帮你加上影片的字幕。

Vidyo 在短影片当道的时代非常值得一看,所有的功能都是围绕着协助影音创作者可以更有效率地制作短影音为主,像是快速剪辑、快速上字幕、快速调整影片尺寸等。

Gling 则是强调在帮你节省剪接的时间,自动删除没声音、多余的段落,方便谈话性的YouTuber 可以更加专注在创作本身。

我个人花最多时间研究的是Descript,2019 年九月的时候Descript 宣布A 轮融资的消息并宣称要让AI 学习使用者的声音后,让AI 可以「将文字稿直接输出为声音」。若各位读者还有印象的话,这个时期就是各种deep learning 深度学习的应用、也就是各种deepfake 开始如雨后春笋般冒出来的时期,伪造的影像、声音可说是初步让世人们见识到原来演算法、人工智慧已经可以搞到这样了。

Descript 早期的诉求非常简单,宣称只要你会用Word,你就可以运用Descript 辅助你的创作。 Descript 的运用流程大致如下:

  1. 录音:你运用Descript 录音,Descript 会即时帮你转译成逐字稿。
  2. 基础编辑:你直接编辑逐字稿,删除赘字、挪移段落,Descript 就会帮你编辑对应的段落。
  3. 进阶编辑(超强!):你发现漏了一段,但你不想重录,怎么办?你直接在逐字稿里面增加你想插入的文字,Descript 会模仿你的声音,直接替你完成该断落的编修。你无需再花时间补片段,也不需要担心录音条件的差异造成特定段落有截然不同的音场、底噪或音色等问题。

换言之,早期的Descript 比较像是专注在声音的处理上,而非影像的处理,而Descript 这样的题目所属的赛道是非常竞争的,因此目前的Descript 已经不再只是个声音编辑软体,目前也变成影像编辑软体了!实在厉害。

另外分享两个我个人满欣赏的影像剪辑的应用,分别是被微软收购的Clipchamp以及正在努力中的新创VEED,这两个产品都提供了简单好用的网页剪辑应用、丰富的影像、声音素材库,同时也整合了AI 语音辨识可自动替影片加上字幕(有支援繁体中文),非常推荐。

动态影片生成

  • Maverick:通过大规模个性化视频提升电商客户生命周期价值
  • BHuman:大规模的人类联系
  • Tavus:您录制一个视频。Tavus 将为您的观众个性化接下来的 1,000,000 个视频。

Maverick 跟BHuman、Tavus 的性质有些类似,应用的方向也挺特殊,决定单独为了这两个新创写一个小分类。想像你正在经营一个需要高度与消费者、客户持续互动往来的生意,每当有消费者决定不续约,或是你正打算推出新的优惠、新的产品,你便打算用影片跟消费者打招呼。

拍摄影片打招呼的模式,通常开头都是说「嘿!大家好」,而这类应用的目标,就是要让你做到你寄给你每一位尊贵的客户时,影片内容都是独一无二的,例如开头不是大家好,而是Hey, Alex 好久不见、Hey Lawrence 好久不见、Hey Steve 好久不见!

其运用的技术就是透过AI 学习你讲话的声音、语调及模仿你讲话的表情,试着动态产生大规模不一样的影片,非常简单直观的应用,但我也满好奇这样的应用实际在商业上的效果如何。

声音处理、剪辑类

尽管Descript 目前比较像是以影像为主的软体,但无论是产品本身的前瞻性、技术力或是业界名声,依然都还是值得将Descript 摆在声音剪辑类的第一位。

Cleanvoice 的应用非常简单,主要是将你录制的podcast 节目中出现的uhhhhhh、sssss-sounds、啧啧声以及思考时的ummmmm 等声音以及口水声、口腔本身造成的声音也都会一并处理,让声音变得更加干净。

Podcastle 则是号称可以让你拥有录音室等级的录音品质,并且提供了运用AI 技术的编辑界面,像是自动提供语音辨识的逐字稿、与Descript 类似的text-to-speech 功能让你可以透过编辑逐字稿就能修改录音内容。若是从号称「录音室等级」的podcast 访谈录音节目来说,我个人还推荐另外两个不错的产品可参考,像是Riverside.fmIRIS

Krisp 是提供给任何想要「安静开会」 的人的超级好软体,Krisp 可以协助你在开会时,运用AI 的运算技术,帮助你在会议上去除你所处环境的杂音、噪音,与你开会的对象不仅不会听到噪音,应该还能感受到你的麦克风收音品质真好、没有其他的杂讯,包括像是小孩哭闹、宠物乱叫、路上的车流声以及家里的电器声等等, Krisp 都可以替你处理。使用Krisp 不需要配合指定的会议软体,无论你是用Zoom、Google Meet 或是任何的会议软体,Krisp 都可以搭配使用。

Adobe 在2022 年底也推出了Adobe Podcast号称AI 赋能的声音编辑软体,一样提供了录音、自动转逐字稿(可多人同时录音并自动辨识不同段落)、剪辑(删除逐字稿里面不想要的段落就可以自动删除对应的片段)。

Adobe 这样的大象虽然动作总是慢了点,但因为财大气粗,通常一出手的样子可能也不会太差,推出Adobe Podcast 的同时还公开了目前免费的「音讯强化」服务Enhance Speech from Adobe,上传你录制好的声音档,Adobe 就会协助你降底噪、让录好的声音更干净。

写作、文案类

  • Jasper:AI 文案撰写者 | AI 内容生成器
  • Rytr:最佳 AI 作家、内容生成器和写作助手
  • ChatGPTOpenAI

Jasper,可说是美国新创界的新星,2022 年10 月刚挤身独角兽俱乐部,Jasper 运用了OpenAI 提供的强大AI 造就了强大的写作AI,从首页上可以看到无论是写部落格、广告文案、行销文案、销售信件、SEO 内容,甚至是写情书,都难不倒他。如果你已经透过ChatGPT 体会过AI 写作的惊人魅力,那你可以想像Jasper 就像是把AI 训练地更好的咏唱者,他们知道你比更多的指令、秘技,拥有更多现成的模板,降低你入门与AI 互动的门槛。

如果相对于每个月US$49 起跳的Jasper 对你来说太贵,同样采用GPT-3 为核心基础的Rytr 将会是你最好的选择,提供了简单的介面让你选择写作目的、写作风格,同时支援各种语言(有繁体中文)。

同样采用GPT-3 的写作类AI 产品还有像是Copy.aiCopysmithWritesonicPeppertype、Anyword,甚至如果你是网路行销人员或是SEO 专家,有一家名叫Surfer的SEO 软体公司你应该不陌生,其背后也是采用GPT-3 的API,由于OpenAI、GPT-3 已经造就了太多此类服务,容我就不一一介绍,个别产品的魅力、特色、价格,尽管略有不同,当你一旦理解背后都是GPT-3 之后,应该就可以想像选择产品的方法,更像是要选择一个「够聪明的产品」,才能将背后的AI 运算能力发挥到更好的境界。

至于ChatGPT 本身,我想对许多人来说就相当熟悉了,在此提供几个我个人非常爱用的小技巧:

  1. 善用角色扮演:例如请他扮演你的写作编辑,或是扮演读者,给你写作建议、回馈。
  2. 就深度、广度,个别探索:善用AI 的知识、资料库相对于人脑丰富完整强大的特性,替自己的写作提供更完整的思路以及参考资料。
  3. 善用不同主题的聊天室:现在的ChatGPT 会把每次的对话都个别开成不同的讨论串(聊天室),善用ChatGPT 的回答有记忆、会考虑前后文的特性,可以在不同场景需求的工作,在不同讨论串中进行工作,会非常有效率。
  4. 给予ChatGPT 明确的指令、要求: 例如要求只能列出重点、请勿使用模糊笼统的形容词,试着抓到一些好用的指令(prompt)让ChatGPT 减少给予一些太浅的回覆。

写作、文案类可说是我个人最感兴趣的赛道,首先这个类别非常实用,我认为是无论你是在什么产业担任任何职务,使用这类的服务都可让你如虎添翼,小至运用AI协助你撰写更流畅、更好阅读的email、协助你调整语气、确认文法,大到协助你构成一个企划案、勾勒文章的大纲,甚至协助你编辑文章等。

写作文案类的赛道非常竞争,不确定是不是因为这个赛道相对于影像、声音类的门槛来得较低,但在ChatGPT 以及Open AI 的API 释出、伴随着Microsoft Azure 也即将推出GPT-3为基础的Azure OpenAI service,我想以纯文字入门的各种AI 新创产品或整合AI 的各种功能应用,将会是今年能持续看到的发展方向之一。

写作文案类的众多玩家中,最值得一提的是Jasper,Jasper 在2022 年10 月完成了1.25 亿美元的A 轮融资后,估值也达到了15 亿美金,这次Jasper 值得一提的第一个亮点,他目前是可号称独角兽的新创公司。另一方面,Jasper 贵为独角兽的同时,近期人们也了解到,Jasper 虽然是一个所谓的AI 新创,但他其实是OpenAI 的最大客户之一,Jasper 背后所使用的AI 技术就是运用OpenAI的API 所搭建起来的,换言之我们可以想像Jasper 是属于一个「加值应用」的软体开发商,其运用OpenAI 的API 以及一系列事先定义好的模板、语法,让以GPT-3 为核心的API可以在Jasper 的产品中有一定程度的表现。

提到模板,另外值得一提的是Ocoya,Ocoya 不完全是AI 写作工具,Ocoya 的定位是社群贴文的管理软体,所以从贴文的构成,包括图片、文字内容以及缩网址还有发布排程等问题他都处理了,不过其中有特别强调运用到AI 的部分就是文案撰写。乍看之下这似乎也没什么,不过我们可以注意到很类似Jasper 的一种AI 运用模式,Ocoya 提供了适合Google 广告文案撰写、Quora 问答撰写、电商产品文案、YouTube 影片资讯栏、Facebook 广告文案撰写、产品开箱评论文案撰写等预设样板,若熟悉ChatGPT 的朋友,应该几乎可以想像这类所谓的样板,其重点就在于一些特定的指令集合,让ChatGPT 可以有较高品质、合乎预期的产出(毕竟是要卖钱或是募资的嘛)。

在ChatGPT 几乎一夕爆红之后,Jasper 的营运方式,想必会出现两种问题:一是自身必须在其「加值应用」的核心业务上,加上更多美丽的糖衣或是更加扎实的应用,来避免对于OpenAI 的过度依赖以及持续的惊人费用;二是想必Jasper 这个独角兽也启发了来自全世界各地的创业者、竞争者,会有更多的人投入成为OpenAI 生态系的一员,一同在加值应用的战场上提供更多元、好用的产品—— 无论如何,终端消费者肯定是受惠的。 Jasper 最近应该很努力,最近主办The Gen AI Conference,整场会议共有17 位讲者,Jasper 就占了其中6 位。

ChatGPT 其背后所代表的GPT-3 家族之强大(资料量、演算法、运算模型、持续增长的使用量以及获取的资料量、财务实力、研究团队、微软),颇有未来一举拿天下的气势;此外,ChatGPT 现阶段已经能产生的应用范围便相当可观,但由于介面是以文字为主,我先将之放在写作文案类,ChatGPT 目前协助产生文案、大纲、候选标题,或是协助编辑、改写文章,甚至是从无到有产生可读性不差的文章,都是ChatGPT 已经能做到的。你甚至可以指使ChatGPT 在对答过程中进行角色扮演,或是运用某个知名作家、大师的写作风格进行临摹、创作,可说是弹性非常非常地大。

图像、视觉设计类

图像、视觉设计的,我想简单分为两个小类别,第一类就是Midjourney、DALL·E 2 为首、引领市场的这种生成式AI,第二类则是比较容易运用于商业应用、实战、相对简单的小工具。

第一类:艺术生成

刚开始说真的DALL·E 2 并没有给我带来太大的冲击与想像,当初印象很深刻是觉得这似乎是给视觉设计师使用的「技能强化外挂」,例如多年前常在知名论坛上看到有网友可能发了一帖求救文,想拜托网友帮忙在出游的照片上移除不小心拍到的路人,DALL·E 2 可以运用AI 强大的学习与判断能力,自动移除照片中不应该有的物件、加上应该有的细节,甚至同时考虑了光、影效果,非常强大。

后来是因为陆续看到了许多网友开始运用Midjourney 产生出各式各样经验的作品,我才后知后觉知道Midjourney 的发展历程在v3 过渡到v4 的过程似乎有了相当幅度的提升,绘图成果的质感、细节都比前一代细腻不少。也大约是到这个阶段,我开始意识到,生成式AI 以及AIGC(Artificial Intelligence-Generated Content) 将赋予像我这样完全不懂绘图、艺术的麻瓜,一种全新的可能性—— 我们可以从艺术赏析、鉴赏开始。

第二类:实用工具

  • Flair:品牌内容的人工智能设计工具
  • PatternedAI:使用 AI 为您的产品生成独特的图案!
  • Illustroke:使用文本到 SVG AI 工具创建一些独特的东西。
  • Stockimg.ai:使用 AI 生成库存图片/书籍封面/徽标/插图
  • Canva 文本转图像:输入您想要看到的内容,然后观察其保存到文件中。

Flair 目前还在封测当中,从首页提供的动画看起来非常有意思,首先上传自己的商品图片,接着透过输入指令(prompt、咒语)产生符合自己品牌风格的商品图之后,就有高质感、拥有设计风格的图片可以使用了。有意思的部分是一般人刚入门AI 指令、咒语,经常苦于不知道使用哪些词汇、有哪些形容方法,Flair 的介面直接提供了很简单的引导方式—— 你用搜寻引擎就会看到的自动完成( autocomplete);同时Flair 还提供了几个基本的教学影片,引导人们成为更好的AI 咏唱者。我觉得这是一个很好的发展方向,主要有两个部分值得学习:一是透过介面的设计降低一般人与AI 互动的门槛;二是运用在特定领域,可提高AI 生成结果的平均品质。

PatternedAI 运用AI 替你产生各式各样可拼接的花样、图样,你可以将这些图样实际输出为布料做成裤子、床单之类的,或是输出成壁纸、马克杯等生活中的实际用品。由于是AI 产生的图样,有很高的机率这些图样是独一无二的,同时,网站上也宣称透过其产生的图样是royal-free、无须缴后续版税的。

Illustroke 可以让你输入简单的文字生成SVG 图片,有别于现行主流的「咏唱咒语」的方式,Illustroke 只需要输入基本的关键字,接着选择风格、图层数量,便会产生对应的SVG 插画图片给你。

Stockimg.ai 的主要诉求是运用AI 协助你快速产生可立即投入商业使用的各种图片素材,像是书籍封面、桌布、海报、logo、插画等,不过尽管如此,可以感受到其背后所使用的AI应该是目前主流的AI 引擎之一,无论从风格、细腻度来说,可能都仅能供基础的取材、寻找灵感使用,而不适合直接运用在商业战场上。

Canva 是目前正在快速改变产业、市场生态的一家公司,可以想像有许多人目前已经不用Microsoft Office、Google Docs、Apple Keynote 等产品,而是几乎使用Canva。随着Canva 推出文件、简报等超越过去以「图像设计」为主的产品后,在发表新产品的同时我们也可以注意到Canva 推出了Text to Image app,你可以在Canva 中直接给予文字指令(咒语)并接着直接在Canva 中取得你心目中所想像的图片。对于很会施咒的设计师来说,此举无疑是大大简化了工作流程、不用额外花钱,还能创造出可能独一无二的图片在自己的作品中合法使用,真棒。

除了上述产品,若多试着探索一些可能相关的AI 新创与产品,可以注意像是designs.ai 或是beautiful.ai 两家公司都强调自己有AI 的功能可以协助你做出更精美的简报,不过若稍微看一下他的产品介绍或是影片就会注意到他们提供的是很简层的AI 运用,例如做text-to-speech 用AI 帮你配音制作简报,尽管也是有善用了AI技术,但整个产品的核心并非由AI 构成(当然如果从这个角度来看,Canva 的text-to-image 也是相对较浅的应用,不过找图、选图、修图毕竟是视觉设计过程中的核心流程,相较来说这是比较接近核心的功能,也影响了一个设计师是否会依赖这个产品、功能)。

电子商务类

我特别拉出一个电子商务类,但这类其实比较像是文案+ 图像设计的特定产业应用。

  • CopyMonkey:您的人工智能亚马逊列表优化专家
  • bloom:利用动态产品照片提高转化率
  • AdCreative.ai:人工智能驱动的广告和社交创意

CopyMonkey 可以协助在Amazon 上销售商品的卖家,自动将商品的商品名称、商品简介以及完成的商品介绍,进行全自动化的改写,可以想像如果你自己能善用ChatGPT 或是Jasper 你就可以完全掌握这件事情了。然而在电子商务领域,可能有几个特性本身就带来了一些可能的商机:

  1. 商品数:如果你的商品只有10 个、20 个,手动管理可能没什么问题,若你想要管理数十个、上百个产品,商品数便会造成你管理上的难度(或是你很难维持更新的频率)。
  2. 销售语言:高转换率的商品销售页,其文案写作有一定的技巧,而并非每种商品都有类似的技巧,
    运用AI 大规模地针对不同类型的产品进行改善、管理,对于销售成绩可能会有一定的帮助。
  3. 规模化管理:电商后台的管理对于商品的上下架、销售数据,搭配AI 文案改善以及前后销售成绩的对比,很容易可以形成一些A/B testing 的参考指标。

Bloom 做的则相对简单,将商品图片运用不同的背景搭配,试着找到转换率最高的组合,在数位广告领域有许多动态产生各种广告看板的应用,AdCreative.ai 便是其一。

音乐合成

  • Soundraw:AI音乐生成器
  • Amper Music(由 sutterstock 提供):面向内容创作者的 AI 音乐创作工具
  • beatoven.ai:创作可定制的免版税音乐,为您的故事增色添彩

音乐合成、编曲类的产品,有一个非常重要的点在于产生所谓「无版权、无版税音乐」(royalty-free music),透过AI 与自己的巧手编辑后的配乐,能产生一定的独特性,好的音乐又能对于影像作品有非常大程度的加分效果,若能兼顾不想要持续付出版税的成本考量,那么就堪称完美了。

我非常推荐Soundraw 非常值得一玩,最主要的原因是无需注册、登入就可以体验,其次是操作介面非常简单,选择你想要的音乐风格、接着就有一堆范例音乐,让你自行调整每一段音乐的强弱,如果开启了Pro 专业模式,可以如下图针对Melody、Backing、Bass、Drum、Fill 等细节进行设定,还可以设定拍子快慢、调整使用乐器的搭配组合以及升降调,可说是非常有弹性,随便点几下就可以配出有自己喜爱风格的音乐。

另外由sutterstock 推出的Amper Music 也非常值得一试,背后了有丰富的曲库可以选择之外,其后台直接就是一个影音编辑器,你可以直接上传自己剪辑后的影片、在后台搭配音乐感受效果,后台选择曲风之后,可以进行升降调,可以决定个别乐器的音色、节拍等,对于想要稍微掌控音乐演奏细节的人来说应该还算堪用。

Amper Music 在建立专案后问你的第一个问题便是:「请问你的音乐长度要多少呢?」,此时你可以选择手动输入,或者是让他根据你上传的影片决定,感觉非常适合影音创作者。

客服系统

我自己生活在北美,生活中经常接触到许多AI 客服系统,从我最常消费的Amazon 拥有可用度非常高的文字聊天机器人之外,无论打电话到政府机关、银行、电信公司或是私人公司,接听电话的语音客服经常是带有语音辨识系统的AI 客服,尽管可以感受到不同公司所使用的AI 程度落差之大,但以北美这种高人工加上缺工的地区来说,最前线的客服人员可以使用AI 就使用AI,AI 在最前线排除或筛选问题后,才进到真人客服进行下一步处理,分工合作,让人力可以运用在更需要人为判断的问题上来维持服务品质。

倘若你经营电子商务或是SaaS 公司,主要接触消费者的管道是网路、电话或是手机app,那么可以提供语音辨识或是文字解析能力的对话式AI 客服(Conversational AI),想必会是提高服务品质、提升回应速度并降低公司固定费用的重要发展方向之一。

严格来说,我们并不能把ChatGPT 当成客服系统,一来ChatGPT 主要用途在于OpenAI 公司用来作为公司技术实力的火力展示,倘若一家公司想要采用以AI 为主要特色的客服系统,想要套用到特定商业场景,还须涉及资料建模、训练并通过一定的品质确保流程,这显然会牵涉到非常多繁复的细节,像是资料的整理、整合,同时还需要考虑哪些属于营业秘密的资讯是不想提供给第三方厂商的。

不过现阶段来说,不考虑太复杂的场景,确实已经有些新创公司已经勇于开始提供有内建所谓AI 的客服系统了,以下整理几家:

  • Quickchat:打造像人类一样说话的人工智能助手的技术
  • ada:人工智能客户服务自动化平台
  • Yellow.ai:企业对话式人工智能和聊天机器人平台
  • kore.ai:人工智能优化的客户和员工体验

其中特别值得一看的是Quickchat,号称powered by OpenAI,同时是Y Combinator 的团队(2018 年春季班),尽管看起来是稍有岁数的YC 团队了,但还是满令人期待。

由于多数公司所提供的客服,提供的问答多半是比较基础、程序性的问题,通常也不会涉及较为复杂的判断,从AI 发展的博大精深来说,最终客服所需要的并不会是超级强大、什么模糊问题都能解的AI,客服系统需要的反而更是能深入理解公司业务范畴并能精准回覆客户需求的特定领域的AI。因此,我也相当期待会有越来越多的客服AI,开始能在Facebook Messenger、Whatsapp、Instagram、LINE 等系统里面开始提供服务。

软体开发

GitHub Copilot 是在2021 年初次面市,如果搭配着看GPT-3 的发展,回头看2018 年微软收购GitHub,就会发现这一切实在合理到不行,微软早在2016 就开始提供Azure 的算力给OpenAI使用,到了2019 年投资OpenAI $10 亿美金、2020 年取得GPT-3 的授权,接着相隔不到一年GitHub Copilot 就开始进行公测了。

基于对于GPT-3 的敬畏以及GitHub 的训练素材库供应了几乎所有语言在各种情境下的资料,我个人满推荐无论你是不是专职的工程师,只要你的生活中有机会撰写、修改程式码,那么花一点小钱租用GitHub Copilot 会是一个非常值得的投资,GitHub Copilot 可以帮助你更有效率地勾勒出你的想法,也可以协助你更有效率地除错,甚至还可以从GitHub Copilot 提供的程式码不断学习、提升自我。

其他几套我就真的是没有玩过了,不过我个人还是相信世界需要良性竞争,倘若Google 与其他业者再不争气点,在未来的好一段时间我们除了GPT-3 及其后继者没能有其他更多选择的话,那么世界可能会因此变得无聊,而且也可能会有点危险。