希尔贝壳:做好AI数据基础服务,实现人工智能民主化,我们任重而道远
人工智能时代已然来临,贝壳伴随着人工智能在各个场景中的做好智落地应用,算法、数据实现算力不再是基础高壁垒,为了不断提高算法精度,服务算法所必须的人工任重数据需求也空前爆发,一度催生了AI基础数据服务行业的民主繁荣。
行业繁荣的化们景象之下,还存在着一些问题,而道由于AI基础数据服务的贝壳数据标注业务相对门槛较低,玩家鱼龙混杂,做好智使行业标准模糊,数据实现服务质量参差不齐。基础目前多以人工标注为主,服务传统标注工厂在“人工成本”方面的人工任重优势正不断被削弱。因此,增强数据处理平台持续学习和自学习能力,利用机器学习辅助人工提升标注维度和精度,同时降低人工成本已经成为产业共识。另外,数据采集层面,针对数据源的版权问题、采集标准问题还没有很好解决;数据库的建设及服务还保持着一定的壁垒,通用场景的AI技术不断成熟,如何建设高精尖数据库在行业当下也需要去解决。
希尔贝壳成立于2017年,深耕场景AI数据服务,做好数据服务的技术创新同时并开始思考数据产业的下一步方向。
疫情肆掠过后,人工智能应用落地速度加快,而这背后,身处AI基础数据行业的希尔贝壳也在加速前行。
用机器辅助做数据标注切入AI基础数据服务行业
希尔贝壳创业初始聚焦语音数据服务,和创始人的背景密切相关。希尔贝壳CEO卜辉从韩国高丽大学AI实验室硕士毕业后,就一直从事智能语音技术及数据库建设方向的工作,对语音数据库以及语音智能产品有着深入的研究。
AI的算法需要大量带标签的数据,数据标注则是由人工为主导,在“有多少人工就有多智能”的产业背景之下,革新技术,行业标准和门槛的提升则显得更为迫切。
在人工智能快速迭代更新的节点,卜辉发现AI技术成本的变化速度惊人且市场竞争激烈,“比如一套通用AI系统相比一年前,价格基本折了三分之一,但是成就技术的数据并没有贬值。相反,数据处理、采集和加工的人力成本越来越高”。
在这样的背景下,智能化辅助标注平台显得尤为重要。这和卜辉最开始切入行业的初衷不谋而合。希尔贝壳的数据标注平台在工作高峰期拥有上万人在并行做数据标注的工作,如何在降低人工成本的情况下保证数据质量,卜辉认为,应当基于一个强大的智能化工作平台,通过完善算法模型和利用大数据分析来提高数据质量的管控和质检,将重复的标注工作做到智能化管理,提高数据标注效率。成熟的算法好比智能车间里的机器人,大数据分析系统好比智慧大脑在24小时做项目管理工作。
对此,希尔贝壳2018年研发并应用了四套智能标注系统来降低数据处理的成本:语音数据质量评测系统、语音自动标注系统、音频检索系统、智能化标注众包大数据分析系统。在数据任务分发、自动纠错、数据质量跟踪上,提高了数据标注的效率,降低了1/3的人工成本,实现从人工到技术,再让技术辅助人工完成高效的标注工作。
但卜辉对数据的思考并不止于此,“让懂技术的人去做数据,可以看到数据完整的生命周期。另外在数据采集方面,要确定版权除了人为的协议,还需要技术的加持,我们已经在开发电子认证、数据加密,既要考虑版权也要重视数据流通的安全。”在卜辉看来,好的数据能够帮助算法更好的去落地。
对此,希尔贝壳还拥有自建数据库的能力,并根据不同应用场景定制优质的数据库,以提高深度学习的算法精度,精准解决产品在场景下的技术痛点。
探索及制作高精尖数据库
自建数据库,是希尔贝壳创立之初就带有的基因,经过4年的探索之后,卜辉越发地重视数据库的业务,高精尖数据库的研发投入也不断扩大。并且在2019年,与西北工业大学音频语音与语言处理研究组联合成立“智能语音与多模态数据实验室” 。
目前,希尔贝壳的客户包括阿里、腾讯、京东、联想、百度等,“大部分客户更多的合作在于希尔贝壳的数据采标方案、数据的质量和专业的服务上。”此外,希尔贝壳持续在数据开源的项目上做投入,目前开源的数据库申请规模已经达到了500+,实现了我们开源数据助力产学研共同发展的目的,在希尔贝壳的品牌建设上也树立了口碑,在业务上也给希尔贝壳开拓了新的方向。而卜辉提到的开源数据项目,就是【AISHELL系列的精标语音数据集】。
响应国家号召,加深【开源】项目建设
今年3月12日,新华社播发 《 中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》,其中【开源】首次被明确列入国民经济和社会发展五年规划纲要。从纲要提到的“支持数字技术开源社区等创新联合体发展,完善开源知识产权和法律体系,鼓励企业开放软件源代码、硬件设计和应用服务”,可以看出国家在战略层面对「开源」的肯定和支持。这足以说明开源是大势所趋。
希尔贝壳成立之初就建立了开源社区,开源了178小时的AISHELL-1中文普通话精标语音数据集。同时搭载全球最大开源语音识别系统Kaldi做了一套开源方案,将有研发价值的数据贡献到科研教育机构。
AISHELL-1开源之后,卜辉发现,高校学生在使用这套方案的同时,很多中小型企业也在利用它进行语音识别技术的研发和产品相关研究,但效果就偏弱了一些。
因此,在2018年6月23日Kaldi第三届全国线下技术交流会上,作为联合主办方之一的希尔贝壳再次开源了全球最大的中文开源数据库AISHELL-2,时长1000小时。这个开源项目不只局限于数据,还包括Kaldi配套的recipe应用。同时成立了AISHELL Foundation来共同推进语音数据和技术的不断开源计划。
AISHELL-2由1991名来自中国不同口音区域的发言人参与录制,文本内容主要涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。并经过专业语音校对人员转写标注,通过了严格质量检验,数据库文本正确率在98%以上。
AISHELL-2是全球最大的中文语音数据开源项目,也是最成功的。也正是因为这次开源,不仅让希尔贝壳被业界所知晓,更是让让希尔贝壳收获了全球的智能语音研究高校合作资源。 “AISHELL-2的开源项目,确定了数据开源的模式,即算法方案、优质的数据集、实验系统的描述这三个维度来做方案,让开源项目能够惠及更多的开发者。对比CV领域ImageNet这样的开源数据库,我们做的还远远不够,但我们会持续做下去,也希望整个产业有更多的人来贡献。”卜辉强调。
数据库做为数据产品需要经历投入成本、市场认可、数据库质量三个维度考核,这也形成了数据库的建设壁垒。AISHELL-1 & 2中文普通话精标语音数据集的建设与开源也验证了希尔贝壳自建数据库的能力。成熟的算法要解决场景化的匹配调优问题,让AI找到了新的挑战。相对AISHELL-1 & 2 赋能基础的语音应用技术,场景化的数据库建设更为复杂,需要考虑技术的满足指标和真实场景数据的匹配等等。场景数据开源的方案希尔贝壳也陆续公开发布了 HI-MIA,智能家居场景的语音唤醒开源项目;联合昆山杜克大学一起发布的多说话人语音合成项目AISHELL-3。 更是把智能语音技术+数据开源的方案树立起了希尔贝壳自有的能力门槛,前沿技术落地数据先行的理念在希尔贝壳充分得到验证。
今年希尔贝壳会推出AISHELL-4,聚焦会议场景的智能语音技术方案,目前开源项目的论文已经公布,该项目方案也是产学研最全面的会议场景方案,相信会推动智能语音技术在会议场景的研究及落地。
希尔贝壳目前已形成了智能语音技术+数据的矩阵开源方案,覆盖语音识别、声纹识别、语音合成、场景智能语音技术应用方案。
数据服务的创新思考:算法和数据的辩证关系
在不断拓宽业务的深度和广度的同时,卜辉更着重思考业务背后的技术逻辑,如何用技术助力和创新业务。创业期间,卜辉一直在思考数据标注、数据采集、数据库和算法之间的联系。在卜辉看来,数据和算法之间是一个辩证的关系,数据是算法的基础,但开源的算法也为数据质量助力,此外,数据库的建设也需要有前沿算法的意识。“因为数据库是为算法和应用层服务的,在对算法有一定的了解背景下去做数据库,则更为清晰。另外,技术落地数据先行是一个必然的趋势。当技术逐渐成熟后科研人员更聚焦用数据去验证技术。”
在AI基础数据服务行业中,希尔贝壳已经拥有了成熟的两大业务形式,包括数据集产品(自建并开源数据库)和数据需求的定制服务(数据采集/标注)。卜辉说道:“做好场景下的数据采标,垂直在场景建数据库,已经成为希尔贝壳的特色和亮点。在AI新基建的路上,非结构化数据的管理、标注、分析、安全等还有很多问题需要解决,基础数据服务要跟上产业的发展投入研发拓展创新,才能真正做到服务产业服务好产业。”
尽管身处在AI基础数据服务行业,但从希尔贝壳的4年发展路径来看,聚焦场景化数据业务,其对人工智能数据的思考和创新不止于此,这和创始人卜辉的创新思维有很大的联系。卜辉一直强调,创新的力量,“尽管数据服务属于人工智能产业的基础层,越基础越要做到扎实,思考不能局限在这一层,从产业的角度去思考和改变,不断提升我们的业务能力。”
在卜辉看来,希尔贝壳用4年的时间做数据层面的创新只是第一步。谈及未来的规划,卜辉说道:“通过技术引领数据业务的发展,通过数据带动技术产业的成熟,在未来用前沿的数据库去服务开发者和科研人员,降低企业在算法落地层面的成本。还要用更多的开源数据与教育、研发、产品等相结合让技术落地走进更多的场景,为实现人工智能民主化希尔贝壳还需要更努力。”
雷锋网雷锋网
友链
外链
互链
Copyright © 2023 Powered by
六合彩图库源码【购买联系电报bc3979】AC彩票网站源码|六合彩源码|彩票搭建|新中原六合彩源码|【网站bc9797.com】六合彩论坛源码【联系飞机bc3979】
sitemap
-
文章
725
-
浏览
47
-
获赞
8
热门推荐
-
欧洲杯最新夺冠赔率:法国成最大热门 三狮排第二
欧洲杯最新夺冠赔率:法国成最大热门 三狮排第二_英格兰队www.ty42.com 日期:2021-06-09 09:01:00| 评论(已有281794条评论)原来,这些黑科技都是“管制制造”!
为落实民航智慧空管技术创新发展战略,加快推进管制运行部高质量发展,日前,厦门空管站管制运行部对苏文国、华德印、韩晓东、焉思捷、翁培钦等五位同志进行通报表彰,引导部门全体员工主动学习新技术、主动思考如何赣州机场抢抓赣南脐橙货运机遇优化服务强保障
本网讯赣州机场分公司邓洋洋报道)2022年11月,赣州又迎来一年一度的赣南脐橙季,皮薄肉厚,口感鲜甜的脐橙既是赣州的代名词,也是中国国家地理标志产品,年产量多达百万吨,深受广大消费者的喜爱。作为对时效宁夏空管分局完成吴忠二次雷达计划巡检工作
11月23 日,宁夏空管分局技保部经过提前安排、周密部署、做好防控、有序实施,顺利完成所辖吴忠二次雷达计划巡检任务。随着宁夏空管分局的快速发展,技保部雷达室的保障工作压力与日俱增,为了统筹好运行保障与潮牌 Palace 2019 秋冬滑板系列单品预览,迷幻艺术范儿
潮牌汇 / 潮流资讯 / 潮牌 Palace 2019 秋冬滑板系列单品预览,迷幻艺术范儿2019年08月07日浏览:5637 前不久,英国滑板品牌 Palace公布了揭秘大唐的“诗圣”杜甫:到底是如何死的?
杜甫(712年—770年),祖籍襄阳,出生于巩县(在今河南省),唐朝伟大的现实主义诗人。后世称他为“诗圣”,称他的诗歌为“诗史”。杜甫一生忧国忧民,尽管宦海沉浮、颠沛一生,但却始终保持着年轻时的狂傲。哈密机场开展飞行区道面状况综合评价工作
通讯员马文轩)为使哈密机场飞行区道面处于良好适用状态,确保航空器起降安全。依据《运输机场飞行区场地管理办法》、《民用机场道面评价管理技术规范》相关要求,哈密机场对跑道、滑行道、机坪开展道面状况综合评价筑沟通之桥,夯管理之基
中国民用航空网通讯员 雷若照、蔡秋婵 报道:9月22日,局直通信网络中心年度班组长培训公开课如期举行。此次公开课由中心人力资源室牵头组织,邀请特训讲师刘爽老师担任主讲,中心各科室班组长及班组长储翰夫人时尚服装(瀚夫什么意思)
翰夫人时尚服装瀚夫什么意思)来源:时尚服装网阅读:1430谁有大型历史话剧《立秋》剧本日之勤”,以及处于历史漩涡、时代变革、局势动荡的那些先辈所做所 想,令我们看完话剧后,心情久久不能平静,话剧的思想三亚空管站管制运行部党总支部召开党风廉政建设专题会
11月21日,管制运行部党总支部召开党风廉政建设专题会,党总支部李小敏书记主持会议,管制运行部领导及各党支部书记参加会议。 会议首先学习了党建网格化管理及党建制度规范相关知识,通过深化学习,阿克苏机场机坪运行部开展冬季车辆运行风险警示
中国民用航空网通讯员晏豪讯:随着冬季运行的到来,阿克苏地区气温骤降,特殊天气下航班保障拉开帷幕。为快速适应运行环境的变化,安全、及时、有效地开展机坪作业,阿克苏机场机坪运行部开展机坪作业安全教育培训。广西空管分局团委召开南宁、桂林、湛江三地管制员团建交流座谈会
为促进团干交流,进一步提升共青团工作质量,11月23日,广西空管分局团委召开南宁、桂林、湛江三地管制员团建交流座谈会。广西空管分局团委书记朱茂东、管制运行部团委书记及各团支部负责人、桂林空管站及湛江空以史为鉴!感恩节当日金价普遍震荡运行,不可盲目追涨杀跌
汇通财经APP讯——周四11月28日)亚市早盘,现货黄金震荡下探,一度下跌0.5%创两个交易日新低至2620.83美元/盎司,主要是受到美元反弹压制和隔夜金价反弹受阻后的卖盘打压。但因为本交易日恰逢美阿克苏机场航站区管理部开展冬季用电安全大检查
中国民用航空网通讯员蔺海讯:为进一步做好安全生产工作,强化安全生产责任意识,切实保障各项生产工作的正常运行,针对近期低温天气,用电符合增大,阿克苏机场航站区管理部立即组织开展冬季用电安全大检查,将事故鼓吹“祥云罩顶”:助丈夫从草根逆袭成皇帝的女人
汉高祖刘邦的妻子吕雉,是中国历史上最具影响力的女人,也是擅玩权术的中国首位专政女性,就是她,鼓吹“祥云罩顶”,助丈夫刘邦从草根逆袭成皇帝。在刘邦去世后的十五年间,她以皇太后的身份,把自己摆在与男人同等