使用 gpt4 vision、whisper 和 text-凯发k8一触即发

2023年12月21日下午2:25 • 工具软件

real-gemini-demo-built-using-gpt4v-and-whisper-and-tts.webp

如果像我一样，你有点失望地得知本月早些时候发布的 google gemini 更多的是关于巧妙的编辑，而不是技术进步。您会很高兴地知道，也许我们不必等待太久就可以使用类似的东西。

在看过 google gemini 的演示和揭示其秘密的博客文章的启示之后。朱利安·德卢卡（julien de luca）问自己：“谷歌展示的’双子座’体验是否不仅仅是一个脚本演示？然后，他开始创建一个有趣的实验，以探索类似于双子座演示中描绘的实时人工智能交互的可行性。以下是他对该项目的一些限制，以使其与谷歌的原始演示保持一致。

它必须实时发生
用户必须能够流式传输
用户必须能够在不与 ui 交互的情况下与助手交谈
助手必须使用视频输入来推理用户的问题
助手必须通过说话来回应

由于 chat gpt vision 目前只能接受单个图像，因此 de luca 需要定期上传从视频中截取的一系列图像和屏幕截图，以便 gpt 了解正在发生的事情。

“咔嚓咔嚓！现在，我们有一个表示视频流的图像。现在我们来谈谈。我需要对系统提示进行大量微调，以使其“理解”这是来自视频。否则，它一直提到“图案”、“条带”或“网格”。我还坚持图像的时间性，因此它会使用图像的顺序进行推理。它肯定可以改进，但对于这个实验来说，它足够好用，“de luca解释道。若要了解有关此过程的详细信息，请跳转到 crafters.ai 网站或 github 了解更多详细信息。

创建了真正的 google gemini 演示

ai jason 还创建了一个结合 gpt-4、whisper 和文本转语音（tts） 技术的示例。观看下面的视频进行演示，并了解有关使用不同的 ai 技术组合在一起自己创建一个的更多信息。

为了创建一个集成了 gpt-4v、whisper 和 tts 的模拟原始 gemini 的演示，开发人员开始了复杂的技术之旅。此过程从设置 next.js 项目开始，该项目是合并视频录制、音频转录和图像网格生成等功能的基础。实现对 openai 的 api 调用至关重要，因为它允许 ai 与用户进行对话、回答他们的询问并提供实时响应。

用户体验的设计是演示的核心，重点是创建一个直观的界面，促进与人工智能的自然交互，类似于与另一个人进行对话。这包括人工智能以适当的方式理解和响应视觉线索的能力。

使用 gpt-4v、whisper 和 text-to-speech 重建 gemini 演示清楚地表明，人工智能可以通过多种感官理解我们并与之互动的未来正在取得进展。这一发展有望提供更自然和身临其境的体验。人工智能社区的持续贡献和想法对于塑造多模态应用的未来至关重要。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/yun271513.html

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

上一篇 2023年12月21日下午2:25

下一篇 2023年12月21日下午2:27

ios 上的“相机”应用程序可让您捕捉慢动作视频，如果您拥有最新的 iphone，则可以以高达 240 fps 的速度录制视频。通过这种方式，您可以拍摄具有出色细节的快节奏动作视频…

2024年3月4日 • 苹果apple
工具软件

这一年是 2024 年，在这一年，演讲领域发生了显着的转变。由笨重的投影仪和令人厌烦的重复幻灯片主导的时代已成为过去。在这个新时代，google bard 等高级 ai 助手的出现…

2024年1月2日
工具软件

assistive：视频生成工具新的视频生成软件assistive，支持从文本和图像生成视频，从演示视频的流体内容和表现来看，我嗅到了svd的熟悉味道。同时推出的还有data-一…

2024年1月2日
工具软件

i2v-adapter：直接从图片生成视频快手也发布了一个视频生成模型 i2v-adapter。主要用于从图片获取信息直接生成视频，这个项目可以与已有的 sd 生态比如conto…

2024年1月2日
工具软件

通过将 dalle-3 api 的功能与用户友好的 bubble 无代码平台相结合，开发人员和设计人员现在可以将简单的用户输入转换为令人惊叹的独特图像。本教程将指导您完成集成这两个…

2023年12月31日
方法 1：使用命令提示符和 netstat 在 windows 系统上揭示端口号背后的进程的第一个也是最简单的方法是使用命令“netstat”。它是一个命令行实用程序，用于显示网络…

2023年12月29日 • 工具软件
工具软件

开始使用 chatgpt 和 swift 构建聊天机器人的旅程是一项复杂的工作，包括多个阶段。这些阶段中的每一个都需要彻底的思考和细致的执行。为了获得更清晰的视角，我们将把这个过…

2023年12月28日
工具软件

当谈到增强 mixtral 8x7b 的功能时，mixtral 8x7b 是一种拥有惊人的 870 亿个参数的人工智能模型，这项任务似乎令人生畏。该模型属于专家混合（moe）类…

2023年12月26日
工具软件

tonic：ai 视频编辑社交软件视频的 ai 转换操作成本也非常低，效果也很好。 ai 会自动接入选择转换视频的一小段，同时跟原视频内容很好的结合起来。它的视觉风格和交互非常…

2023年12月26日
工具软件

creatify：从一条链接生成视频广告 creatify 这个产品，可以直接从你的产品页面获取内容，可以是凯发k8一触即发官网可以是电商商品页，然后直接生成广告视频。优质广告的广告语口播和内容其…

2023年12月26日
苹果apple

如果您有幸在这个假期为自己买了一台新的 mac 或 macbook，您将需要设置设备，本指南旨在涵盖您需要了解的有关设置新 apple 计算机的所有信息。设置新的 macbook …

2023年12月23日
工具软件

midjourney 的开发团队刚刚以备受期待的 midjourney 6 的形式发布了其 ai 艺术生成器的最新版本。如果您想了解更多关于 midjourney 6 与 dall…

2023年12月22日
工具软件

midjourney version 6 的到来引发了那些以数字方式创建和处理图像的人的兴奋。这个 alpha 版本是九个月开发的产物，它带来了许多新功能，有望提高您可以生成的图像…

2023年12月22日
支持 31 种语言的翻译工具我们在日常学习工作中经常需要进行大量的翻译，特别是对于在外企，常常需要对整个文件进行翻译，同时有写作的需求。那么 deepl 既能满足 31 种语言翻译…

工具软件 2023年12月22日
工具软件

在过去的一年里，人工智能（ai）在科技领域取得了长足的进步，改变了我们与数字设备和内容互动的方式。openai、microsoft、谷歌等主要科技公司在 2023 年一直处于这…

2023年12月21日
工具软件

当您决定在计算机上安装 mixtral 未经审查的 ai 模型时，您将获得一种复杂的人工智能，该人工智能旨在超越同类产品中的许多其他人工智能。这款 ai 被称为 mixtral 8…

2023年12月21日
工具软件

由于人工智能（ai）的整合，音乐和视频制作的格局正在经历重大转变。艺术家和创作者现在有能力利用人工智能，以曾经被认为不可能的方式将他们富有想象力的概念变为现实。这种转变为个性化…

2023年12月21日
谷歌发布了一个用于视频生成的大语言模型videopoet，这个有点意思。这个是一个专注于视频生成的多模态 llm 。支持各种视频生成功能以及音频生成，让 llm 来指导完整的视频生…

工具软件 2023年12月21日
upscale-a-video视频放大算法 upscale-a-video的文本引导潜在扩散框架，用于视频放大。该框架通过两个关键机制确保时间上的一致性：在局部上，它将时间层集成到…

工具软件 2023年12月19日
w.a.l.t：谷歌视频生成模型刚注意到李飞飞团队的这个视频生成模型w.a.l.t，这效果也太好了，感觉比 pika 1.0 还要好的多。清晰度和动作都非常好，特别是光剑打斗的那…

工具软件 2023年12月19日
freeinit：大幅提高ai视频生成中内容一致性南洋理工发布了一个可以大幅提高ai视频生成中内容一致性的方法freeinit，演示看起来非常流畅。而且可以跟现有的sd生态结合。…

工具软件 2023年12月19日
videolcm: video latent consistency model 视频 lcm 项目，通过四个采样步骤即可实现高保真、流畅的视频合成。其实这个我没看懂，现有的 lc…

工具软件 2023年12月19日
工具软件

delphi：克隆自己的分身为用户提供服务终于出现完全产品化的为个人炼制模型并提供服务的产品了。delphi 这个应用可以将你所有的视频、播客、pdf、博客文章等信息训练为一个你…

2023年12月19日
工具软件

domo ai：视频转视频产品前几天刚说完 animatediff 视频转视频产品化会有很大的机会。domoai这就上了，而且效果还很好，相当稳定。第二个视频质量问题没识别全。我…

2023年12月19日
工具软件

animatediff v3 及sparsectrl发布上周五animatediff发布了 v3 模型我也做了一些测试，总体来看效果是好了一些，不过没有特别大的变化，感兴趣的可以…

2023年12月19日

使用 gpt4 vision、whisper 和 text-凯发k8一触即发

创建了真正的 google gemini 演示

相关推荐