在南非约翰内斯堡 Rosebank 社区的一个共享办公空间内,杰德·阿博特(Jade Abbott)打开了一个网页,向 ChatGPT 输入提示,要求它用祖鲁语(isiZulu)从 1 数到 10。在她的祖国南非,有超过 1000 万人使用这种语言。计算机科学家兼研究员阿博特表示,结果“好坏参半且令人捧腹”。
之后她又用祖鲁语的文字输入了几个句子,并要求聊天机器人将它们翻译成英语。ChatGPT 给出的答案跟正确答案毫无关系。尽管在没有太多可用于训练的数据的情况下,人们一直在努力将一些小语种纳入人工智能模型中,但对阿博特来说,这些结果表明该技术“实际上仍然无法获取我们的语言”。
阿博特的经历反映了不会说英语的非洲人所面临的情况,包括 ChatGPT 在内的许多语言模型对于使用人数较少的语言(尤其是非洲语言)表现不佳。但阿博特和生物医学工程师佩罗诺米·莫伊洛亚(Pelonomi Moiloa)共同成立了一家名为 Lelapa AI 的新公司,该公司正尝试利用机器学习来创建专门为非洲人服务的工具。
Vulavula 是 Lelapa 公司近日发布的一款新人工智能工具,可将语音转换为文本,并检测书面文本中的人名和地名。这对于总结文档或在线搜索某人可能很有用。目前,它可以识别南非使用的四种语言:祖鲁语、南非语(Afrikaans)、塞索托语(Sesotho)和英语,并且该团队正在努力将非洲各地的其他语言纳入其中。
该工具可以单独使用,也可以集成到 ChatGPT 和在线对话聊天机器人等现有人工智能工具中。该团队希望 Vulavula(在聪加语中的意思是“说话”)将使那些目前不支持非洲语言的工具变得支持一部分非洲语言。
Lelapa AI 首席执行官兼联合创始人莫伊洛亚表示,缺乏适用于非洲语言并识别非洲人名和地点的人工智能工具,使非洲人民无法获得经济机会。对她来说,致力于构建以非洲为中心的人工智能解决方案,这是帮助非洲人民利用人工智能技术抓住巨大潜在优势的一种方式。 “我们正在努力解决真正的问题,并将权力重新交到我们的人民手中,”她说。
世界上有成千上万种语言,其中仅非洲就有 1000 到 2000 种语言。据估计,非洲大陆的本土语言占世界语言的三分之一。尽管以英语为母语的人仅占全球人口的 5%,但英语显然在互联网上占据主导地位,而且现在也开始在人工智能工具中占据主导地位。
纠正这种不平衡状况的一些努力已经存在,比如 OpenAI 的 GPT-4 已包含冰岛语等小语种。2020 年 2 月,谷歌翻译开始支持约 7500 万人使用的五种新语言。但非洲人工智能研究人员表示,翻译质量很差,该工具经常把非洲语言弄错,距离准确地通过数字化方式表达非洲语言还有很长的路要走。
2023 年早些时候,在卢旺达基加利举行的非洲顶级人工智能会议上,埃塞俄比亚计算机科学家阿斯梅拉什·特卡·哈德古(Asmelash Teka Hadgu)与阿博特使用 ChatGPT 进行了相同的实验。
当他用母语提格雷尼亚语向聊天机器人提问时,得到的答案都是乱码。“它生成的单词没有任何意义。” 哈德古说。他是 Lesan 的联合创始人,Lesan 是一家总部位于德国柏林的人工智能初创公司,正在开发埃塞俄比亚语言的翻译工具。
Lelapa AI 和 Lesan 只是开发非洲语言语音识别工具的两家初创公司。2023 年 2 月,Lelapa AI 筹集了 250 万美元的种子资金,该公司计划在 2025 年进行下一轮融资。
但非洲企业家表示,他们面临许多重大障碍,包括缺乏资金、接触投资者的机会有限以及训练人工智能学习多种非洲语言方面的困难。 “在非洲科技初创公司中,人工智能获得的资金最少。”AJALA 的创始人阿巴克·阿登勒(Abake Adenle)说道,AJALA 是一家总部位于伦敦的初创公司,为非洲语言提供语音自动化服务。
哈德古表示,由于潜在市场规模小、缺乏政治支持以及互联网基础设施薄弱,致力于开发支持非洲语言产品的人工智能初创公司经常被投资者忽视。然而,哈德古表示,包括 Lesan、GhanaNLP 和 Lelapa AI 在内的非洲小型初创公司正在发挥重要作用。“大型科技公司还没精力关注我们的语言。”他说,“但我们不能指望他们。”
Lelapa AI 人工智能团队的数据科学家武科西·马里瓦特(Vukosi Marivate)表示,该公司正试图为非洲的人工智能模型创建一个新的范式。Lelapa AI 不像西方公司那样单独利用从互联网收集的数据来训练模型,而是与语言学家和当地社区进行线上和线下合作,收集数据、对其进行注释,并识别该工具可能存在问题的用例 。
Lelapa AI 的自然语言处理研究员博纳文图尔·多索(Bonaventure Dossou) 表示,与语言学家合作使他们能够开发出一种针对特定情境且与文化相关的模型。 “嵌入文化敏感性和语言观点可以使技术系统变得更好。”多索说。例如,Lelapa AI 团队构建了针对特定语言的情绪和语气分析算法。
马里瓦特和他在 Lelapa AI 的同事设想了一个人工智能技术为非洲人服务并代表非洲人的未来。 2019 年,马里瓦特和阿博特创立了 Masakhane,这是一项所谓的“草根倡议(grassroots initiative)”,旨在促进非洲语言的自然语言研究。该倡议现在有数千名志愿者、程序员和研究人员共同努力构建以非洲为中心的自然语言模型。
马里瓦特表示,Vulavula 和其他人工智能工具是非洲人为非洲人打造的,这一点很重要:“我们是我们自己语言的守护者。我们应该成为适用于我们语言的技术的构建者。”IM电竞IM电竞
地址:马鞍山经济技术开发区湖东南路555号众一创意街区4栋201-202
电话:15955552931
邮箱:admin@masydzp.com