開(kāi)啟心靈,擁抱AI主持的質(zhì)性研究
我和一位前同事聊到关于使用AI进行研究会话的管理,其中一位AI调研助手与人类受访者一起进行定性研究。
她既恶心又沮丧地反应:“呕,真是糟透了。”
我认出了那种反应——那是心神不宁的感觉,担心AI会抢走你所热爱的东西。
对于定性研究人员来说,这对他们来说尤其打击沉重。我们相信我们的工作,并为此感到自豪。如果你查看任何一个定性研究人员的内心,你会发现满满的荣誉,里面装满了他们解开人类神秘的谜题、发现别人未曾发现的新见解的时刻。
AI审核似乎在贬低这一切的价值或危及其所有,但我想要提出一个不同的看法。
在新方法里发现工艺大约一年前,我开始尝试AI审核,起初是为了证明它是错的。但最终,我自己开发出了AI审核员DeepNeed,来证明它是对的。
多年来,我培训了许多从业者。我在MIT教了两个学期的定性方法。我想知道,如果我们认为这项技术遵守了我们的“游戏规则”,我们又会怎么想呢?
就这样做,我的内心发生了转变,从自我保护和防御转为感激这种方法带给我们的。
为什么?因为我亲眼见过它打开大门:更多的机会、更高的信誉度和更大的战略价值。
更重要的是,我发现这仍然感觉像是我们的作品。那份匠心依然存在。我仍然喜欢我在其中的部分。
方法论上的障碍让我们思想开放的第一步是回应和解决人们对AI监管系统最常见的三条批评意见。
- AI 调解员无法探究背后的“为什么”。
- AI 调解员会忽略情绪信息和环境因素。
- AI 调解员无法建立人际联系。
经验丰富的访谈者似乎有一种神奇的魅力,能流利地挖掘更深层次的动机。当我刚开始学习时,我注意到,我记得看资深访谈者时,总觉得他们像是有“超能力”一般。
大家觉得AI做不好这个。
根据最近 Ipsos 的一份报告(见 链接)中提到的:人类主持人在填补差距和消除不一致方面再次表现出色。
“一个AI调解机器人常常像新手一样,总是低头查看讨论指南,因此忽略了现场情况。它错过了许多深入探讨的机会。”
在所有批评中,这是我最不同意的。
如果AI调解员未能有效地进行探究,这更多是设计上的缺陷,而不是技术的根本限制。就像人类一样,AI也需要经过训练,超越讨论大纲,识别出值得深入探讨的精彩瞬间。
在DeepNeed, 我们采用代理式工作流程,其中编码机器人和访谈机器人协同工作以确定探查位置。下面是一个最近访谈的例子:
人工探测
它不可能赢得普利策奖。但它是否揭示了更深层次的原因呢?是的。
大多数时候,我都会想:这就是我本来会问的。
批评二:AI审核无法理解情感层面和环境因素第二个批评是,AI无法理解肢体语言,也无法通过细微线索深入挖掘。
据 Ipsos 所说:
“经验丰富的版主或调停者会透过文字表层——注意发言中的犹豫、兴奋或不适的情绪,并据此进行进一步的互动。没有这些线索的话,研究团队可能就无法察觉其中的弦外之音。”
我同意AI确实可能会错过这些潜在信号——但我不认为这算是一个决定性因素。
当 n = 10 时,捕捉这些线索对于维护数据完整性至关重要。但当 n = 400 时,个别的犹豫或细微差别往往会 平均化,从而揭示更大规模下的更广泛模式。
除此之外,还有许多AI审查平台,如Listen Labs,已经集成了视频分析功能,让研究人员分析隐含的意思。像Affectiva的Emotion AI这样的技术声称能检测复杂的情绪,进一步拉近了距离。
在我看来,更重要的是,缺乏环境上下文是更显著的限制。研究访谈通常包括对话以及观察——而这一点对于人工智能来说仍然是一个挑战。
说起来,疫情证明了面对面的研究并不总是必不可少的,以收集背景信息。平台如Dscout和WatchMeThink已经开创了虚拟观察,让研究人员可以远程收集丰富的现实世界数据。
而这只是一个开始。AI公司正在积极开发视觉功能,比如埃坦·莫利克演示的OpenAI的Live Mode,这表明LLM将增强其分析实时视频的能力,这意味着AI审核人员能够通过视觉理解上下文。
如果你想找一个绝对靠谱的理由说明AI审核永远不会成功,我不会赌这一把。
第三条批评:AI审核难以建立联系最终的论据是,AI无法建立让受访者畅所欲言所需的信任。
作为研究人员,我们以能反映情感、确认经历并提供一个诚恳反思的安全环境而自豪。
我也不反对。实际上,在DeepNeed,我们一直在努力设计AI在整个面试过程中验证回答的方式。
但我也有疑问。
我们可能低估了面对面访谈带来的紧张感或侵扰性,特别当有报酬时。
初步研究表明,受访者往往更喜欢AI调解者,因为他们觉得AI不带偏见。
伦敦政治经济学院的一项研究发现(https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4974382),法国选民的情况为:
- 50% 更喜欢AI面试官
- 15% 更倾向于真人面试官
- 35% 则无所谓
根据这项研究,参与者感觉到:
“人工智能是没有评判的实体……他们可以自由地分享自己的想法,而不用担心受到评判。”
这与现有的心理学研究结果一致,表明当人们认为没有人在观察时,他们更愿意向电脑披露真实和敏感的信息。
我们所认为的人工智能的弱点——缺乏人情味——实际上可能成为鼓励坦率回应的优势。
价值门槛我不认为人工智能监管面临的最大障碍源于这些方法论的批评。真正的问题在于我们尚未充分理解其价值——这怎么可能?这项技术仍然处于初级阶段。
作为从业者,我们经常将传统的定性研究视为一种米其林星级的用餐体验——深刻细致、精心制作。
“第三号餐桌那个地方?你看到他们看到那份凯维奇时脸上的表情了吗?”
在另一端上,定量研究就像一家连锁快餐店Chipotle一样——快速、高效且大规模生产。但它有其用途,没有人会说他们吃了墨西哥卷饼后改变了生活。
量化对比质化
也许就像我们社区里的咖啡馆或熟食店,这就是我认为AI内容审核的真正价值所在。
就像当地的咖啡馆一样,AI moderation 拥有独特的功能和存在的意义。它不是仅仅为了“快,快,快!”而是利用规模和速度的优势来创造一种独特的、自身的方法,而不仅仅是对传统方法的拙劣模仿。
速度快提供了战略空间定性研究是非常耗费资源的。我们在数据分析、回顾分析和形成洞察的过程中很容易迷失焦点,忘记了我们原本要回答的核心问题。
我们的相关方希望得到一份完整准备好的饭菜,但我们提供的只是一份详细记录的胡萝卜切片报告。
在最近的一个项目中,我们只有三周的时间来交付成果并在董事会之前展示成果——对于传统的研究来说,这是一个几乎不可能完成的紧迫时间表。但借助AI,我们仅用了两天时间就收集到了所需的数据,这给了我们充裕的时间来思考、改进并迭代。
我们在交付前对核心框架和故事进行了三次重大调整,确保了更好的成果。
更快的速度能带来更多的研究机会当研究变得更快速且更实惠时,它就变得更加触手可及了。这一点也许是最显而易见的。
不再视定性研究为缓慢且耗费资源的过程,利益相关者开始将其视为一种灵活的手段,可以更加频繁、更有策略地应用。
我们可以试着鼓励利益相关者在我们的米其林餐厅用餐——但我们需要意识到他们越来越倾向于直接跳过前往餐厅这一步了。
Aaron Cannon,Outset.ai的联合创始人,通过将数据存储成本的降低进行类比来说明这一点。在过去50年里,计算机内存和存储的价格大幅下降,这不仅让现有的计算变得更便宜,还促进了全新的创新,比如智能手机的出现。
Outset AI
类似地,随着定性研究的成本和所需时间的减少,这不仅使定性研究变得更加容易,还扩展了可能的研究领域。
Scale 展现更全面的画面有一种普遍的看法是,AI内容审核会使数据质量变差——但这不一定就是错的。
规模不仅能加快研究,还能揭示我们在小样本中可能忽略的见解和机会,或者因为它们没有立即吸引我们的注意而被我们错过。
比如说,在最近的一项研究中,我们对400名患者进行了访谈。我们录制了300小时的音频,并识别出了3,580个深层客户需求。我们将这些需求归类成29个汇总类别,按出现频率排序。
在DeepNeed,我们利用这些数据构建一个全面的客户需求全景图。
一次AI监管的面试可能感觉不够细致。但经过数百次面试,大规模的积累可以描绘出更丰富、更全面的画面。
规模能增加信任。我不知道你的情况如何,但我已经厌倦了为样本量大小的问题争论不休。
每家公司似乎都有重要相关方对定性工作缺乏信任。但局面会发生变化,当我们能用定量数据来支撑这些深刻的见解时。
从四次对话中呈现的见解与从165次对话中得到的见解差别很大。
海量的数据不但提升可信度,也让我们能够捕捉到更广泛模式中的细节,从而讲一个更丰富、更有说服力的故事。
最后一道防线:自己
最终的挑战不是技术性的,而是个人的。
这份工作对我们来说意义深远。我们运用自己的创作才能去理解他人,那些完全不同于我们的人。
研究不仅仅是一份工作;它塑造了我们的身份。我们将自己的创意和才华用于理解他人——那些与我们截然不同的人——而他们的故事会一直伴随着我们。
当我第一次进行AI监管的研究时,我似乎找到了感觉:
✅ 兴奋地挖掘人们的言论,寻找那些宝贵的见解
✅ 注意到一些有趣的词汇选择,它们总结了关键的洞见
✅ 构建了一个我知道会破除团队最大误解的故事
我突然意识到,这依旧是我热爱的工作。
AI内容审核不只是一个工具,它是一种新的方式。和任何方式一样,它也需要人类专业知识来引导。
关键是自信地在这些新模式中找到我们自己的位置。所以我鼓励大家:试试看。亲身体验其价值。并自信地在新方法中找到自己的位置。
参考
- Ipsos. (2024). “质性研究中的AI调解:机遇与限制.” [用于对AI调解能力的批评]
- Ratcliff, M. (2023). “质性研究中的AI状态.” Murmur Research. [指出AI质性研究是“开放式量化研究”]
- London School of Economics. (2023). “AI与人类访谈者的偏好.” [研究显示,50%的受访者更喜欢AI访谈]
- Mollick, E. (2024). “OpenAI的Live模式演示.” [用于展示多模态视觉能力]
共同學(xué)習(xí),寫(xiě)下你的評(píng)論
評(píng)論加載中...
作者其他優(yōu)質(zhì)文章
100積分直接送
付費(fèi)專(zhuān)欄免費(fèi)學(xué)
大額優(yōu)惠券免費(fèi)領(lǐng)