高质量数据集

其他类

文本视频T2V动态属性数据集

本数据集专注于提升T2V模型处理动态属性的能力。我们构建了大量包含动态过程的高质量视频数据,如颜色渐变、大小伸缩、纹理演化和冰块融化等子类。这有助于模型学习生成变化更自然、细节更丰富的视频。

视频文本

获取数据集 >>

安防类

Koala36M 错误修正数据集

本数据集为多模态T2V及V2T任务提供经过系统性选、定位和修正的样本,确保修正后的数据标注与视频画面保持高度一致,细节丰富且语言自然,为后续模型训练提供更可靠的语义支撑。

视频文本

获取数据集 >>
更多 >

数据集列表

保险行业问答数据 自然语言处理数据集(NLP) 语音 金融类
逻辑训练题 逻辑训练题、低年级奥数推理题、生活常识推理题、低年级智力题/推理题、符号规律题。 电子版 教育类
出生医学证明 2016年1月-2023年10月的百度知道数据 图像 证照类
中文客服语言数据 中文客服语音数据集,覆盖金融、电商、教育、调查、物业、咨询等领域内容。无文本(可承接文本转写) 语言 中文
高质量视频描述数据集 富有美感,涵盖人物、动物、美食、风景、航拍等多种类别,视频分辨率不低于1080p,视频无水印、无内嵌字幕、无损坏、无空帧。 视频 文旅类
中国公民护照卡证 中国公民护照卡证 图文 证照类
港澳居民来往内地通行证卡证 港澳居民来往内地通行证卡证正反面 图文 证照类
三通道人脸数据 RGB/IR/Depth 图像 人物类
敏感词库(已标注100类别) 自然语言处理数据集(NLP) 电子版 其他类
高品质杂志文章数据集(带插图) 包括但不限于地理、历史、医学、经济、科学、人文社科等多个主题的中文杂志文章。文章来源于优质媒体,如《中国国家地理》《环球人文地理》《旅行家杂志》《国家人文历史》《哈佛商业评论》《财经杂志》《北大金融评论》《商界杂志》《中国金融》《第一财经杂志》《环球科学》《自然》《博物》《天文爱好者》《万物》《Newton科学世界》《探索发现》《三联生活周刊》《南方周末》《青年文摘》《看世界》等。 图文 其他类
3d人脸 前置摄像头人脸多表情多角度视频 图片视频 安防类
安防采集 正面和侧面照片+人脸转头一圈视频 图片视频 安防类
监控场景采集 每人最少10张照片+遮挡信息的SFZ照片1张+每人6段视频 图片视频 安防类
红外人脸 室内+室外场景下人脸在逆光、背光、侧光、正常光等管线下的RGB及IR数据 图片视频 安防类
车载模拟 模拟车辆驾驶过程中的各种危险表情 图片视频 交通类
综合视频 食物、时尚、旅行、自然、艺术、运动、植物 视频 其他类
高清通用场景视频素材数据集 高清视频素材,内容涵盖了自然风光、城市景观、商业活动、人物表演、科技、运动等多个主题,视频通常具有高分辨率,包括多种场景(室内、室外),多种视频内容(人体运动、风景、动物等)。视频分辨率不低于1080p,帧率不低于20fps,单个视频时长不低于5s。 视频 文旅类
中国风高清视频 "1、中国风类视频,根据关键词分为三大类,关键词包括 (1)24节气 (2)中国元素风景 (3)传统节日 2、单个视频长度不低于5s 3、无卡通,不带字幕,无水印,无贴图,无二次创作类视频" 视频 文旅类
高清视频素材库 包含情感 治愈 风景 人物 城市夜景 车水马龙 下雨天 禅意 动漫治愈 海浪 等分类视频等共计220万个 视频 文旅类
海外特效动画视频 汇总 海外特效动画视频 汇总 视频 其他类
本土短视频 本土短视频 视频 其他类
本土长视频(影视 剧、纪录片等) 本土长视频(影视 剧、纪录片等) 视频 其他类
Youtube 360P/720P/1K/4K各分辨率的都有。其中720大概有100万,170T 视频 其他类
4K航拍视频素材 覆盖各种场景的高空航拍视频数据,单个视频时长大于10秒 视频 航拍类
综合视频集 航拍、交通工具、城市、街道、动物、野生动物、建筑、家庭、节日、人物 视频 其他类
高清动漫视频素材库 高清动漫素材视频20万个,共计11000G 视频 动漫类
科教自然类纪录片类视频数据集(带字幕) 科教自然类纪录片类视频, 来源自高质量纪录片,如《舌尖上的中国》、《海昏侯》、《跟着唐诗去旅行》、《如果国宝会说话》、《锦绣记》、《书简阅中国》、《影响世界的中国植物》、《河西走廊(2022)》、《风味人间》、《宇宙时空之旅》、《文明》、《寻味顺德》、《我从汉朝来》、《楚国八百年》、《国脉》、《瓷路》、《国家宝藏》、《智慧中国》、《科学重器》、《东非大裂谷》、《大太平洋》、《自然的力量》、《生命的力量》、《微观世界》、《隐秘王国》等。 视频 纪录片
海外实拍视频汇总 海外实拍视频汇总 视频 纪录片
人物短视频(1分钟) 教辅类 视频 人物类
多语言文库摘要 覆盖泰语、阿拉伯语、日语、韩语、土耳其语、俄语、英语、西班牙语、葡萄牙语、印地语等各语种的文库摘要数据集,每个语种5000+篇 电子版 电子书
敏感词库 库一:涉政、暴恐、歧视、色情、广告、违禁等词汇/句子,26种语言脏话,含已分类及未分类,中英文脏话等。总计33万条。 库二:包含阿拉伯语、俄语、日语、法语、葡萄牙语五个语种的敏感词库,总计150万条 电子版 文字类
小语种文本数据 包含德语、韩语、马来语、泰语、印尼语、越南语六个语种的文本数据,每个语种均有学术论文、新闻资讯、会议/对话、财报、技术文档/用户手册、法律文书、FAQ帮助文档、剧本、小说和专利共计10种不同内容数据,每种内容5G大小,每个语种50G大小。 电子版 文字类
多学科中英文文献数据集 包括但不限于地理、工程、化学、计算机科学、经济、人文社科、生态环境、生物、数学、物理、医学等多个学科的中英期刊 杂志 报道等文献。 电子版 教育类
多领域中英文专利数据集 从1985年至今的中文专利信息,分为发明公开、发明授权(属于其他三类专利的子集)、实用新型类。包括但不限于作业运输、化学冶金、纺织造纸、建筑、机械工程、物理、电学、信息技术等领域。以信息、科技、数理化生理工类。 电子版 教育类
中英文电子书 中英文电子书 电子版 教育类
多语言翻译中文 英文、日语、韩语、意大利、葡萄牙、德语、俄罗斯语、西班牙、法语、阿拉伯语、拉脱维亚、匈牙利、克罗地亚、乌克兰、罗马尼亚、捷克语、保加利亚、塞尔维亚 瑞典语 丹麦语 格鲁吉亚 亚美尼亚 希腊语 芬兰 立陶宛 斯洛文尼亚 斯洛伐克 挪威 老挝语 缅甸语 泰语 他加禄语 越语 印地 普什图 孟加拉语 泰卢固语 斯瓦西里语(肯尼亚) 僧伽罗语(斯里兰卡) 尼泊尔语 印尼 泰米尔语 马来西亚 乌尔都 外蒙 阿塞拜疆 乌兹别克 土克曼语 波斯语 希伯来语 土耳其 豪萨语 哈萨克斯坦(外哈) 哈萨克语(内) 维吾尔语 藏语 内蒙等 电子版 翻译类
平行语料 闽南语,上海,山东,四川,东北方言与普通话平行语料 电子版 翻译类
粤语-普通话 粤语-普通话 电子版 翻译类
多语言翻译英文 韩语 马来西亚 印尼 泰国 越南语 格鲁吉亚 俄罗斯 缅甸 乌克兰 阿拉伯 法语 丹麦 德语 僧伽罗语 老挝 芬兰 克罗地亚 意大利 瑞典 尼泊尔 挪威 斯洛伐克语 波斯语 亚美尼亚 塞尔维亚 日语 乌尔都 塔吉克 孟加拉语 西班牙 葡萄牙 土耳其 普什图语 乌兹别克语 哈萨克语 阿萨拜疆语 斯瓦西里语 他加禄语 保加利亚语 罗马尼亚、中文等 电子版 翻译类
中英文籍 英文书籍 中文书籍 电子版 电子书
政府工作报告 "最新的全国,省,市三级政府工作报告文本数据,可供相关词频研究使用。 1、数据名称:最新版政府工作报告原文 2、数据范围:国,省,市三级。 3、年份跨度: 全国的年份是(1954-2023) 省的政府工作报告年份是(2002-2023) 地级市的政府工作报告年份是(2003-2023) 国家级和省级数据无缺失。 地级市280个城市左右,因年份久远,存在一些缺失。2003年以后的完整度95%,2005年以后的完整度97%,2008年往后的完整度99%。不影响计量分析。" 电子版 政务类
大模型百科类数据 id+title+内容+原始链接 电子版 其他类
Runway视频 4K高清youtube视频。runway除了4K,还有720P和1K的,非4K视频有260w/500T 视频 其他类
YT-Temporal-1B原始视频 来源youtube。平均时长267s,360P 视频 其他类
Howto-Interlink7M   视频 其他类
Panda70m 清晰度360P 视频 其他类
视频训练素材 视频训练素材 (720P-4K高清,无水印) 视频 其他类
视频训练素材 视频训练素材 (360P标清,带大水印) 视频 其他类
低幼儿童语音数据-中文 低幼儿童语音数据-中文 音频 中文合成
合成普通话 中文普通话语音数据合成数据、中文多人合成数据库 音频 中文
老人中文普通话 老人中文普通话数据 音频 中文
中文普通话 中文普通话口语语音数据库、中文普通话语音数据 音频 中文
台湾普通话语音数据库 台湾普通话语音数据库 音频 中文
成人英语语音数据 成人英语语音数据 音频 英语
中国人说英语语音数据集 中国人说英语语音数据集 音频 英语
英国英语音频数据集 英国英语音频数据集 音频 英语
英语 英语 音频 英语
粤语通用ASR数据集 自由说语音数据集、粤语语音数据库 音频 方言
直播方言语音数据库 直播方言语音数据库 音频 方言
方言语音数据库 陕西方言语音数据库、上海方言语音数据库、四川方言语音数据库、粤语方言语音数据库、河南方言语音数据库、天津方言语音数据库(双人,多人对话)、闽南语音频数据集 音频 方言
哈语1 娱乐节目、新闻,综合类、科技等等 音频 外语
藏语语音数据库 藏语语音数据库、藏语三个方言朗读数据(安多卫藏康巴三个方言单独存储)、 音频 方言
维语 输入法、娱乐节目、科技,交通,旅游,经济,体育,交通、纯演员音频素材,从农业,蔬菜,旅游,科普知识,电视剧,电影,动画片,疫情,生活会话,新闻联播,有声读物,娱乐,小品节目、综合类等等 音频 外语
维语普通话真实语音数据 语音app后台真实数据 音频 外语
粤语真实电话咨询 粤语真实电话咨询(无标注结果) 音频 外语
外语 印地语语音数据、哈萨克语语音数据库、阿拉伯语语音数据库、俄语语音数据库、泰语-英语平行语料库、日语语音数据库、泰语语音数据库、越南语语音数据库、维语语音数据库、越南语、意大利语、西班牙语、泰语、韩语、葡萄牙语、芬兰语、他加禄语、法语、德语、丹麦语、波斯语、波兰语、荷兰语、瑞典语、印地语、爪哇语、斯瓦希里语、孟加拉语、斯瓦希里语、泰米尔语、阿拉伯语、马来西亚语、韩语音频数据集、越南语语音频数据集 音频 外语
印度英语音频数据集 印度英语音频数据集 音频 外语
维语普通话真实语音数据 维语普通话真实语音数据 音频 外语
维语1 和田方言,喀什方言,聊天对话 音频 外语
喜马拉雅音频 喜马拉雅音频(new!) 音频 其他类
真人语音音频 【抖音10万小时+B站20万小时】 音频 其他类
智能家居语音数据 智能家居语音数据-中文、智能家居语音数据-英文、家居场景语控词语音数据库 音频 其他类
智能车载语音数据 汽油车-智能车载语音数据、电动车-智能车载语音数据 音频 其他类
aishell-2 基础版、高级版 音频 其他类
中英混读语音数据 中英混读语音数据 音频 其他类
人声纹语音数据 1300人声纹语音数据、7993人声纹语音数据 音频 其他类
中英文唤醒词语音数据库 中英文唤醒词语音数据库 音频 其他类
远场语音数据库 远场声纹语音数据、远场语音助手语音数据库 音频 其他类
会议数据 会议数据、大会数据 音频 其他类
情感语音合成数据库 情感语音合成数据库 音频 其他类
口音对话语音数据库 口音对话语音数据库 音频 其他类
多信道数字串语音数据库 多信道数字串语音数据库 音频 其他类
智能机器人语音数据 智能机器人语音数据 音频 其他类
婴幼儿啼哭音频数据库 婴幼儿啼哭音频数据库 音频 其他类
多语ASR音频数据产品说明书 多语ASR音频数据产品说明书 音频 其他类
音乐数据 音乐数据 音频 其他类
合成语音数据 TTS语音合成数据、模型生成中文情感合成语音数据库、模型生成方言合成语音数据库、模型生成英文合成语音数据库 音频 其他类
小学数学 1-6年级、试卷有解析有答案 图像 教育类
语文批改作文 学生英文作文拍照图片数据,按小学、初中、高中,各级数据均匀分布; 图像 教育类
消费小票 定额发票、餐饮小票、购物小票、汽车加油票、电子发票、网约车行程单、过路过桥费、酒店流水单、发票等 图像 消费类
证照票据 发明专利、企业经营许可证、营业执照、收据、通用机打发票、增值税发票卷票、非税收入发票、房产证、企业高新证明、开户许可证、银行承兑汇票、学士学位证书、航空行程单、税收完税证明、客运车船票、户口本、快递面单、银行卡、机动车登记证书 图像 证照类
银行卡照片 国内各大小银行各种类型卡,信用卡借记卡横卡竖卡残缺卡等,部分数据带转写(一卡多照正面 一卡正反面单照均有) 图像视频 证照类
行驶证照片 各场景下的行驶证照片,带转写 图像 证照类
出生医学证明 2016年1月-2023年10月的百度知道数据 图像 证照类
结婚证 2023年10月-2024年7月的百度知道数据 图像 证照类
地图文本描述数据集 1. 核心场景:政治地图,包括世界各国的现代和古代地图,地图上显示国家、省、市等行政边界,以及主要城市和首都 2. 非核心场景:(1)地形图:显示地形特征,如山脉、河流、湖泊等,并使用等高线表示地形的高差。3. 针对不同地图需要有指令丰富的QA对标注 图像 文旅类
维语图像(原始图片未标注) 百度经验官网宣称1500万,基本接近全覆盖 图像 语言类
集合图象数据集 包含景点地标、真实动物、卡通、中国元素、服饰妆容等图片数据,600*600,36W像素以上,总计1亿张图片数据 图像 文旅类
图文对 包含国内外代表性地标建筑、包含国内外收藏文物 图文 文旅类
中国民俗文化 真实中国民俗和文化类照片,包含各类民俗等照片,覆盖面广、包含3000个中国元素的关键词图片和对应的文本描述,分辨率大于1024. 图像 文旅类
花型图片 用于纺织服装等特定垂直领域的花型设计图片,图片审美质量高,图片商业授权在纺织行业等全球消费品市场得到客户大规模应用 图像 文旅类
自然风景 真实自然风景摄影照片,包含多种主题如云海、草原、瀑布、海洋、湖泊、河流、山地、平原等,审美质量高 图像 文旅类
城市建筑 真实城市和建筑照片,包含全球各类城市和建筑,如教堂、办公、桥梁、学校、医院、街道等,审美质量高,覆盖面广 图像 文旅类
小语种 韩、日、越南、俄罗斯文字图片带转写 图像 其他类
美食 真实中国美食照片,包含各种菜 系照片,审美质量高、真实海外美食和食材照片,审美 质量高,覆盖面广 图像 文旅类
天空照片 南北方早中晚天空照片,晴天阴天等 图像视频 文旅类
人像 真实人像图片数据、东方人物照片、海外人像照片、Ins风格人像照片 图像 人物类
动物 真实动物摄影照片,包含宠物类动物如猫狗等,以及各类非宠物动物如鸟、兽等,覆盖种类广多、猫狗照片,不同背景,不同角度照片 图像 动物类
车牌数据集 已经切割好的车牌数据集 图像 交通类
AI合成图象数据 包含动漫动物、人物写实、人物油画、线稿、写实风景、写实食物、油画风景7种AI生成图片数据。 图像 其他类
多模态-3D模型数据 五类3D模型,分为商品、人物、动物、植物、物品五大类型;  图像 其他类
4K真实摄影照片 短边分辨率超过4K的真实世界摄影照片,不含黑白背景图片,包含肖像权授权的人物、 动物、植物等主题,质量高 图像 其他类
OCR中英文数据 各场景下的中英文图片,带转写 图像 其他类
多模态-游戏类图文对数据 包含游戏特效、游戏角色、游戏场景等类型;质量:图片尺寸1024P及以上,无水印;不涉及黄赌毒政恐元素,图片不含有任何文字; 图文 其他类
通用场景图文对数据集 图像类别覆盖人物、美食、风景、建筑、城市、乡村,健康、运动、医疗、汽车、背景、金融、教育、油画、插画、水彩、旅行、时尚、浪漫、动物、植物、太空、科技、真实摄影图、矢量图艺术图片、静物、纹理图、特别镜头图片等多种类别。描述语言为英文或中文。图像分辨率1080P以上,图片无水印、无模糊、无损坏、无空图。 图像 其他类
多模态-文生图数据 本数据为高清图片+文本描述的图片文本对应数据,图片分辨率短边>1024p,质量:美感:类摄影作品,在构图、色彩、曝光各个维度达到专业水平,高美学观感的图像数据,包含两个部分数据: 1.多模态-文生图-人物、动物、植物、自然风景高清图片 2.多模态-文生图-人造场景、人造物品、交通工具高清图片 图像 其他类
蔬菜水果植物 真实蔬菜水果照片,审美质量高、真实植物摄影照片,包含各类植 物如树、花、草等,审美质量高 图像 其他类
语文历史政治数理化试题 小学初中高中 电子版 教育类
中文书籍 楚辞、论语、小说、古典书籍、唐诗宋词元曲、国内外名著,现代畅销书籍、儿童文学、计算机、建筑、交通、历史、科普、旅游与地图、农业科学、经济、宗教等 电子版 教育类
国内外教材教辅资料数据集 包含国内及国外小学-大学,考研考公资格认证等数据,覆盖教材、教辅和题库三种数据 电子版 教育类
期刊论文数据集 包含硕博论文及学科期刊内容,中英论文 电子版 教育类
中英文题库 小初高、大学各学科,考公考编行测,包含答案解析。通识逻辑学,推理,国外K12\sat\托福雅思\常识 电子版 教育类
英文题库 覆盖学科:数学、物理、化学、大学常见专业如:计算机、经济、法律、哲学、历史、文化等等各学科;题型:选择(包括单选、多选)、填空、是非判断; 电子版 教育类
多编程语言代码数据集 包括但不限于以下编程语言: Python、C、Java、C++、C#、Visual Basic、Swift、Shell、Ruby、HTML、JavaScript、SQL、PHP、Go、Perl、Scala、Objective-C、CSS。 电子版 代码类
大模型法律问答数据集 法律案例问答对。包含问题、解析、依据 电子版 法律类
法律书籍 覆盖各类法律图书、法律文书 电子版 法律类
工业模型数据 行业垂域多轮对话,法律法规,技术知识,行业报告,新闻热点,趋势,事故报告,案例研究,保险等 电子版 工业类
中文医疗问答数据集 覆盖全科领域的医疗对话问答知识。 电子版 医疗类
中英医疗平行句对数据 中英平行语料-医疗内容。 电子版 医疗类
大模型医疗问答 妇产科 儿科 男科 内科 外科 肿瘤科 电子版 医疗类
中英日文剧本数据 包括话剧、电影、微电影、电视剧、短剧、相声、小品、动画等中英文剧本,部分剧本有统计字数。 电子版 影视类
多语种电子书籍 覆盖泰语、阿拉伯语、日语、韩语、土耳其语、俄语、英语、西班牙语、葡萄牙语、印地语等各语种的电子图书。 电子版 电子书
中英文高质量专业领域书籍 20万本专业领域书籍,专业人士编写的相关领域的科普/大众读物,覆盖天文、生物、化学、地理、航空航天、经济、宗教、艺术等25个细分行业 电子版 其他类
裁判文书 覆盖各领域1985-2021年全量数据 电子版 其他类
某信读书 数据来源某知名线上读书平台,共计字数180余亿字符,包含27个细分领域,清洗完成后可编辑HTML 电子版 其他类
中文学科专业题库 公安、公考、医学、外语、学历、工程、法律、经济、职业教育、计算机、资格考试、金融题库含图片,带解析 电子版 其他类
百度百科 2023年3月采集(含词条浏览数) 电子版 其他类
对话问答数据集 包含法律问答、心理咨询问答、性别响应、医疗对话、引导多轮对话、政务对话、电子商务多轮对话、百科知道问答、社区高质量问答、多轮对话、角色扮演对话共计11个类别的对话数据 电子版 其他类
多国(非中文)双人多轮对话文本数据 双人多轮对话,每组对话8个话题,每个话题20轮+,共200组 电子版 其他类
车载问答对话数据 包含人机交互的智能车载问答、闲聊以及旅行路线美食美景攻略问答三种数据类型 电子版 其他类
公文脱敏数据 txt格式,字数500以上/篇,已脱敏 json 格式提交 数据包含以分类:常用公文,创先争优,党团相关,调研论文,计划总结,领导讲话,述职述廉,乡村振兴,心得体会,组织生活会,实用材料,文秘知识,学习提升,演讲致词 电子版 其他类
各领域专业网站数据集 各领域专业网站数据,如电力领域、能源领域等,覆盖至少10个行业。 电子版 其他类
互联网数据 百度百科、头条新闻 、微信公众号、 知乎问答、百家号数据集、Common Crawl、 Fineweb Quora 、日语Quora、 Reddit、 推特 Github、CSDN、头条新闻、什么值得买、百度经验、百度知道 电子版 其他类
裁判文书网 2016年-2024年9月 电子版 其他类
豆瓣电视剧、电影的meta 信息  豆瓣电视剧、电影的meta 信息  电子版 其他类
学习强国(价值观对齐语料)QA对 学习强国(价值观对齐语料)QA对 电子版 其他类
高质量数据 国高质量知乎数据、清洗规整好的百度知道大模型数据 电子版 其他类
获取数据集

 

数据集名称

 

简介

 

数据类型

 

行业