- 主页 > 生活百科 > >
盘点20多个强大且免费的数据源,任何人都能以此来构建AI( 二 )
Google Open Images——数以百万计的图像以各种方式分类和标记,用于训练许多不同类型的计算机视觉算法 。 Imag.NET Open Dataset——另一个由标记图像组成的数据集,可免费用于非商业机器学习应用 。 COCO Dataset——Common Objects in Context (COCO)数据集中包含了超过200000张图像,这些图像被选择用于训练对象检测和字幕算法 。声音数据
- Mozilla Common Voice——一个开放的录音数据集,可用于训练任何涉及语音的AI应用 。
- AudIOSet——另一个由谷歌策划的数据集,这个数据集专注于声音,包含数十万个10秒样本,这些样本被分解为乐器、车辆和人声等类别 。
- Million Song Dataset——来自一百万个当代流行音乐曲目的样本和元数据 。
文本数据
- Wikidata——多种不同格式的维基百科文章的数据库下载 。
- Common Crawl——一个从万维网上抓取的开放数据存储库,最知名的用途就是对ChatGPT和其他聊天机器人的GPU大型语言模型进行训练 。
其他和杂项数据集
- Amazon Reviews——包含约3500万条亚马逊产品评论的数据库,包括产品信息和评级 。
- Waymo Open Dataset——Alphabet自动驾驶子公司Waymo公开了通过自动驾驶车辆收集的大量数据,包括来自摄像头和LiDAR传感器数据 。
- Apolloscape Dataset——更多的自动驾驶数据,是由百度开源Apollo平台提供的 。
推荐阅读
-
扭牛说电影:看到最后一款:大招范围变大了,王者自带隐藏加成的皮肤
-
「武汉」天际线、水岸线、灯光秀、生态绿美不胜收,一片清爽扮靓
-
里弗斯|里弗斯:小卡的领导力让我想到尤因 G2对手会让我们远离油漆区
-
-
-
周扒皮看热闹|欧拉白猫VS奇瑞小蚂蚁,难分胜负,新能源汽车崭露头角
-
苏伟|3消息!爆外援引进又要暂停,苏伟亲承恐离队,本土球员有望创史
-
错误|不管犯了什么错误,都会选择原谅的星座,看看都有谁?
-
-
-
-
思淼谈历史|就在敌人眼皮子下,被炮弹炸伤一声不吭,3500人埋伏19小时
-
-
-
富婆|40岁富婆年薪十万招男司机,却无人敢去应聘,到底是为何?
-
编程重度爱好者|新冠肺炎与特朗普:促进C语言登顶Tiobe榜首?
-
这里是厦门|以前的校长都能上课,为什么现在的几乎都不上课,什么变了?
-
-
安徽最厉害的县,富裕程度远超芜湖 马鞍山,池州 黄山极具压力
-
胖虎追泡泡▲致电美国想要求助,美反问:我们的物资呢?,日本企业停工停产