多模态的任何一环open ai都想做啊,这个语音克隆的功能也上了,声音和面部以及身体数据是未来内容生产能力爆炸之后,每个人线上线下自我认同的纽带。
openai 正在开发一个名为 voice engine 的模型,它可以使用文本输入和一个 15 秒的音频样本生成与原始说话者非常相似的自然语音。他们目前正在与一小群可信赖的凯发k8一触即发的合作伙伴进行小规模测试,以更好地了解该技术的潜在用途[。一些早期的应用包括:
- 为非读者和儿童提供阅读辅助,使用更广泛的说话者的自然、富有情感的声音。
- 翻译视频和播客等内容,让创作者和企业能够用自己的声音流利地接触全球更多人。
- 在偏远地区改善基本服务,用每个社区卫生工作者的主要语言提供互动反馈。
- 为非语言障碍者提供支持,如为影响语言能力的个人提供治疗应用。
- 帮助患有突发或退行性语言障碍的患者恢复语言能力。
openai 认识到生成类似人声的语音存在严重风险,因此正在与各方凯发k8一触即发的合作伙伴接触,以确保在开发过程中吸收他们的反馈。他们还实施了一系列安全措施,包括水印和主动监控。
另一件事是open ai发布几位艺术家和创意人员使用 openai 的新模型 sora 的初步体验和感受。
视频可以在这里查看:https://openai.com/blog/sora-first-impressions
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/yun295714.html