Sora上线引发数据标注热潮,文德数慧助力行业发展

Sora官网视频
01

Sora不仅支持生成高达1080p分辨率、最长20秒的视频,且提供多种画面比例和灵活的输入方式(文字或图像),同时全新UI界面的上线使得用户在创作与编辑过程中体验更为便捷流畅。这一创新技术预计将为用户带来革命性的创作体验。

Sora预设风格多样,有“预设”、“屏幕比例”等多种选项,用户可轻松输入文字描述生成视频,还能对视频进行进一步编辑、分享等操作。其功能丰富,如Remix可替换视频元素,Re - cut能截取并延展视频片段,Storyboard工具可精确控制视频帧,Loop可循环播放,Blend能无缝融合两个视频,Style presets可切换视频风格。
Sora的能力远远超出了简单文生视频,它还能将静态图变身动画,添加细节。它还可以扩展现有视频,或填充缺失的帧。所有的ChatGPT Plus/Pro用户皆可使用。唯一区别是,使用限制不同:Plus用户每个月有50次生成额度,Pro用户可以获得500次快速生成额度(如果选择的分辨率更高,则次数更少)或是无限次慢速生成额度。一经上线,网页就已经瞬间挤爆。

OpenAI 期望 Sora 能够激发用户的创造力,使其探索全新的叙事模式,讲述自身的故事,并持续拓展视频叙事的边界。OpenAI 也满怀期待地关注着 Sora 如何塑造全新的创作天地。作为理解和模拟真实世界的模型基础,Sora也被OpenAI视为迈向AGI的关键里程碑。
02

Sora的成功离不开强大的算力和精确的数据标注支持。AI生成视频的关键在于如何精准理解和执行用户的文本指令,而这一切都与高质量的标注数据息息相关。Sora能够准确执行用户的要求,得益于核心秘密武器一——DALL·E 3,能够为视觉训练数据生成高度详细的描述性标注。这不仅解决了生成过程中可能出现的标注缺失等难题,还大大提升了标注数据的质量,从而使得训练后的Sora在生成视频时能够更精准地理解并执行用户的文本指令。

在Sora等大模型的训练过程中,数据标注环节的精细化处理至关重要。随着大模型数据需求的不断增长,标注数据的质量与规模成为决定模型性能的关键因素。特别是在通用大模型的训练资源逐渐枯竭的背景下,数据标注不仅能为AI提供更多的训练数据,还能提升数据的质量和利用效率,充分发挥数据的“乘数效应”。
03


在数据标注的背后,像文德数慧这样的专业数据服务公司发挥了至关重要的作用。作为行业的代表厂商,文德数慧率先开拓大模型安全检测、大模型数据质量标注、AIGC优化校准、大模型评估等数据处理服务,并应用于人工智能、 AIGC社交、互联网电商等多个领域,为通用大模型公司及垂类大模型公司提供全流程数据服务解决方案。据统计,文德数慧数据标注年度完成量超16亿条,覆盖文本、语音、图像和视频等多模态数据,并在自动驾驶、医疗和教育等领域实现深度融合与应用,自动驾驶领域数据标注规模位列国内头部。

同时,为进一步提升标注服务质量,文德数慧自主研发“VendeAutoConnect智能标注平台”,可为客户提供高效的数据处理和标注服务。该平台不仅支持文本、语音、图像、视频等多种标注数据源的接入,还能够根据项目需求,灵活定制输出标注格式,满足具有通过完善的运营管理体系、丰富的工具组件及灵活的部署应用方式,帮助客户构建并持续提升AI能力等优势。

新的技术方向也意味着更优质的数据需求。未来,文德数慧将继续秉承“成为领先的AI数据处理与解决方案提供商”的愿景,提高标注效率和准确性,并确保数据隐私和安全,推动数据标注业务向专业化、自动化、标准化和合规化方向发展,满足不同应用场景和 AI 模型的需求,为客户提供强大的数据驱动力。
