Kotoba Technologies完成1000万美元追加种子轮融资：用端侧语音AI打破语言延迟，Kindred领投东亚多模态沟通未来

项目速览

项目名称 Kotoba Technologies

融资轮次种子轮追加融资

融资金额 1000万美元

投资方 Kindred Ventures, Salesforce Ventures, Sony Innovation Fund

在 AI 的主流版图中，英语模型长期占据了绝大部分话语权。然而，面对语法结构、敬语体系和音调完全不同的东亚语言（日语、韩语、中文），传统的“云端大模型+文字翻译+语音合成”的拼凑式架构不仅延迟极高，更在情感和语境表达上面临灾难性的体验损失。如何实现真正原生、实时的多语种 Speech-to-Speech（S2S，语音对语音）AI 交互，正成为多模态时代的下个关键风口。

2026年6月24日，专注于开发多语种、实时语音 AI 基础模型的初创科技公司 Kotoba Technologies 宣布，成功筹集了 1000 万美元的追加种子轮融资。本轮融资由 Kindred Ventures 领投，Salesforce Ventures 以及索尼创新基金（Sony Innovation Fund）联合跟投。至此，这家成立于2023年的初创公司累计融资总额已达 2300 万美元。这笔新资金将全额用于加速其自主研发的多模态“Koto”语音基础模型家族的迭代、向端侧芯片进行深度适配优化，并推进其新发布的开发者 alpha API 和 Python SDK 的全球商业化。

公司名称	Kotoba Technologies
交易类型	种子轮追加融资
交易金额	1000万美元
领投方	Kindred Ventures
跟投方	Salesforce Ventures, Sony Innovation Fund
官网	kotoba.tech

联合创始人背景：从华盛顿大学NLP实验室走出的日本学者

Kotoba Technologies 由 Noriyuki Kojima 和 Jungo Kasai 联合创立。两位联合创始人均是自然语言处理（NLP）领域的知名学者与工程专家，其中 Jungo Kasai 毕业于华盛顿大学，在机器翻译、大语言模型低延迟推理方面积累了丰厚的科研成果。

Kasai 意识到，当下的语音助手（如 Siri 或各类翻译软件）在进行东亚语言交互时面临严重的“多重拼装延迟”：系统必须先用 ASR（语音识别）将人声转为文字，再用大模型处理文字，最后通过 TTS（文字转语音）将文字读出来。这一过程的延迟通常高达数秒，彻底破坏了人类对话的自然节奏。Kotoba 开发的“Koto”模型则是原生的 S2S（语音直接对语音）大模型，语音信号在输入后直接经过神经网络转换并生成对应语种的语音输出，将整体端到端延迟压缩到了毫秒级，实现真正“插嘴式”的实时对话。

端侧 AI 的战役：索尼投资背后的“智能硬件”野心

索尼创新基金（Sony Innovation Fund）作为战略投资者入局，预示着 Kotoba Technologies 的商业版图绝非局限于云端 SaaS API。

“Koto”模型的核心技术优势之一，在于其对“端侧部署（Edge AI）”的极致优化。传统的超大参数量模型必须运行在昂贵的数据中心 GPU 上，而 Kotoba 的模型经过参数压缩和量化技术，能够直接运行在智能手机、智能汽车、可穿戴设备以及各种智能家电的边缘侧处理芯片上。对于索尼这样的全球消费电子巨头而言，将 Kotoba 的超低延迟、高自然度语音 AI 直接嵌入其下一代无线耳机（TWS）、家用智能设备甚至是 PlayStation 生态，将极大地改变人机交互的物理边界。

领投方 Kindred 逻辑：打破大模型巨头的“英语偏见”

Kindred Ventures 与 Salesforce Ventures 重仓 Kotoba，看中其在东亚非英语市场的“本土护城河”。

东亚地区的日语和韩语市场拥有极高的客单价和强劲的付费能力，但其独特的语言学特征（例如日语中极其复杂的敬语体系和潜台词语境）使得直接使用 GPT-4o 的语音模式时，常常出现语气生硬、语法失妥的问题。Kotoba 通过对海量高质量本地语音数据的专属训练，使“Koto”模型能够精准识别东亚语言中的微小情绪起伏与社交语境，提供更有温度和分寸感的交互。这为本地企业客户（例如金融客服、跨国贸易谈判）提供了一个比通用英语系模型更符合本土文化逻辑的垂直解决方案。

场景落地的物理天花板：端侧算力限制与方言噪声的极限夹击

尽管“原生实时语音”的蓝图令人心动，但 Kotoba 必须面对物理世界的多重障碍。

要想在资源极度受限的端侧设备（如耳机或车载芯片）上流畅运行 S2S 模型，往往需要对模型进行高强度的“剪枝”和蒸馏。这一过程很容易导致模型在面对复杂句式时出现理解力下滑，或者在面对嘈杂背景音（如街道噪声、车内风噪）时的抗噪能力骤降。此外，东亚语言（尤其是中文和日语）中存在大量复杂的方言、口音以及混杂了英文单词的“混合语言”现象，如何确保模型在非标准普通话或非标准东京音的环境下依然维持极高的准确率和极低的延迟，将是 Kotoba 能否真正实现消费级落地的一道硬核难关。