新智元报道
编辑:Aeneas 好困【新智元导读】终于,AI检测器总算是被OpenAI给憋出来了。左右互搏:OpenAI发布ChatGPT检测器
刚刚,OpenAI官宣了自家的AI文本分类器。它是一个经过微调的GPT模型,可以推断一段文本由AI产生的可能性。有趣的是,ChatGPT也是基于GPT模型,用这个分类器检测ChatGPT,堪称左右互搏。在训练上,这个模型采用的是同一主题下的人类手写和AI生成的文本对。用到的素材来自于维基百科数据集、2019年收集的WebText数据集,以及在训练InstructGPT时收集的一组人类演示。 体验地址:https://platform.openai.com/ai-text-classifier但是吧,这个正确率着实不高……在评估「挑战集」中的英语文本时,分类器只将26%的AI生成文本正确地归类为「可能是AI写的」(真阳性)。「撩妹神器」还灵不?
毫无疑问,ChatGPT正在全世界掀起一股飓风。
学生们纷纷用得不亦乐乎,媒体惊呼,最近的调查显示,。此外,它还通过了美国医学执照考试、沃顿商学院MBA考试和4门法学院的考试,能力简直要通天;美版「头条」BuzzFeed宣布要用ChatGPT写文的消息后,股价疯狂暴涨119%。而妙笔生花的文采,也让ChatGPT被很多小哥奉为「撩妹神器」。 虽然做数学题不太灵,但想要让它写下一篇文采斐然、深情款款的情书,那可真是so easy。这不,国外的这位小哥,就沉迷于用ChatGPT给老婆Monika写情书。然而Monika早已看穿他的套路,警告他别再沉迷ChatGPT无法自拔。还有玩得大的哥们,把ChatGPT生成的情书发给了好基友,好基友直接一脸黑人问号。虽然但是,可以看出,ChatGPT的文采相当不错。论文、情书、小说,ChatGPT都不在话下。难怪大家都在疯狂用ChatGPT「造文」。那OpenAI发布的官方AI检测器,究竟有多管用呢?咱们来实测一下。先试一试Monika的老公发给她的情诗。然而遗憾的是,OpenAI表示自己只能检测1000字符以上的文章,爱莫能助……翻译一下:至少需要1000字符,也就是150-250个英文单词。而对于中文来说,就只能是「千字长文」了。的确,OpenAI的官方公告里也说,「分类器对于短文本(少于 1,000 个字符)的检测非常不可靠。甚至更长的文本有时会被分类器错误地标记。」除此之外,OpenAI的检测器还有几个「限制」:分类器并不总是准确的,它可能会错误地标记AI生成的和人类写的文本,并且语气很自信
建议仅对英文文本使用分类器。它在其他语言上的表现要差得多,并且在代码上不可靠
它无法可靠地识别非常可预测的文本。例如,无法预测前1000个素数的列表是由AI还是人类写的,因为正确答案总是相同的
AI生成的文本,经过编辑之后很可能会规避掉分类器的检测
如果输入与训练集中的文本有很大的区别,分类器会做出错误判断
既然检测器要长文,那咱们就给它个长的。小编组合了一篇王小波情书选段,全文共1027个字。输入检测器后,它给出了判断:这篇情书是人类写的。Bingo!然后,小编又让ChatGPT模仿王小波,生成新的情书。可以看到,ChatGPT写的情书文采还行,但比起大作家的文字,它真的没有「灵魂」。而检测器也准确测出来,这封情书大概率就是AI生成的。结果的划分超细 具体来说,分类器会将输入文本分为五类:「非常不可能是AI生成的」(Very unlikely to be AI-generated)
分类器的阈值<0.1。在「挑战集」集中,大约5%的手写文本和2%的AI生成文本有这个标注。「不太可能是AI生成的」(Unlikely to be AI-generated)
分类器的阈值在0.1到0.45之间。在「挑战集」中,大约15%的手写文本和10%的AI生成文本有这个标注。「不清楚是否是AI写的」(Unclear if it is AI writte)
分类器的阈值在0.45到0.9之间。在「挑战集」中,大约50%的手写文本和34%的AI生成文本有这个标注。「可能是AI生成的」(Possibly AI-generated)
分类器的阈值在0.9到0.98之间。在「挑战集」中,大约21%的手写文本和28%的AI生成文本有这个标注。「很可能是AI生成的」(Likely AI-generated)
分类器的阈值>0.98。在「挑战集」中,大约9%的手写文本和26%的AI生成文本有这个标注。可靠性有待加强 虽然分类器可以识别大部分AI生成的文本,但OpenAI提醒称,它并不「完全可靠」。在曲线下面积(AUC)测试中,分类器在验证集中达到了0.97分,在挑战集中达到了0.66分,而此前公布的分类器在验证集中达到了0.95分,在挑战集中达到了0.43分。此外,随着语言模型规模的增大,分类器的性能出现了下降。
AIGC大厂自研「AI检测器」实测
在OpenAI发布官方「AI检测器」以前,市面上早就有了多款AI检测器。来自美国的作家和计算机科学家David Gewirtz,就亲自测试了三款在线AI检测器。这里最有趣的一点在于,其中有两个都是贩卖AI生成文本的网站自己做的。注意:人写的是普通字体,AI生成的是斜体。每段文字后,会显示检测器的结果。(实际输入检测器的文本都是英文文字,本文为翻译后的结果)。顺便一提,这位David Gewirtz还是FBI InfraGard的成员,以及美国重要的网络安全专家之一。此前,他曾在伍斯特理工学院以优异的成绩获得理学士学位,但在加州大学伯克利分校读博士时退学。测试开始! 1. 解释为什么ChatGPT造成的抄袭会给教师和编辑带来困扰ChatGPT是OpenAI开发的GPT(Generative Pre-trained Transformer)语言模型的一个变体。它被设计为通过预测给定输入序列中的下一个单词或短语,来生成类似人类的文本。虽然ChatGPT可以成为生成文本和响应提示的有用工具,但在涉及到抄袭时,它也会给教师和编辑带来问题。ChatGPT会给教师和编辑带来问题的主要原因之一是,它可以生成与真实人类非常相似的文本。这意味着人们有可能使用ChatGPT生成文本,然后将其作为自己的作品提交,从而犯下抄袭的错误。对于教师和编辑来说,检测一段特定的文本是由ChatGPT生成的还是由人写的,可能非常困难,因为生成的文本可能不包含任何明显的错误或差异,能让人辨别出它的来源。这可能会使教师和编辑难以识别和防止抄袭,因为他们可能无法分辨出某段文字是原创的,还是从其他来源复制的。总的来说,ChatGPT和其他类似的语言模型在涉及到抄袭时,可能会成为教师和编辑的问题,因为它们可以生成难以区分的文本,使人们更容易进行抄袭,而不被发现。GPT-2 Output Detector:99.69%真的。WriterAIContent Detector:97%是人类生成的内容,妙不可言!Content at ScaleAIContent Detection:87%人类得分,看起来不错!2. 告诉我至少三种方法,用来检测一篇文章是否是用ChatGPT生成的有几种方法可以检测出ChatGPT或其他语言模型是否被用于生成一段文本。以下是你可以使用的三种潜在方法。1. 寻找文本中的重复或异常模式:检测一个语言模型是否被用来生成一段文本的方法之一,是寻找写作中的重复或不寻常的模式。例如,语言模型可能会重复某些短语或单词组合,或使用不寻常或不一致的句子结构。2. 检查是否缺乏原创性:另一种检测语言模型是否被用来生成一段文本的方法,是检查写作中是否缺乏原创性。如果一段文本看起来是从其他来源复制的,或者如果它包含在互联网上或其他来源中广泛存在的信息,这可能就表明,它是由语言模型生成的。3. 使用抄袭检查器:最后,你可以使用抄袭检查器,来检查一段文字是否是从另一个来源抄袭的。虽然抄袭检查器可能无法明确确定文中是否使用了语言模型,但它可以帮助你识别从其他来源抄袭或转述的情况。请记住,要明确地确定是否使用了语言模型来生成一段文本是很困难的,这些方法并不总是有效。然而,它们可以成为有用的工具,帮助你识别语言模型生成文本的潜在实例。GPT-2 Output Detector:99.98%假的。WriterAIContent Detector:「无结果」。Content at ScaleAIContent Detection:0%人类得分,显然是AI。3. 列出三个可以检测ChatGPT文本的抄袭检查器值得注意的是,目前还没有专门的抄袭检查器,用于检测由ChatGPT或其他语言模型生成的文本。虽然一些抄袭检查器可能能够识别语言模型生成文本的某些特征,从而证明文本来自AI,但不能保证它们能够明确地确定,一段文本是否是由语言模型生成的。因此,这里有三个抄袭检查器,你可以考虑使用它们,来帮助识别语言模型生成文本的潜在实例:1. Turnitin:Turnitin是一个流行的抄袭检查器,被学校和大学广泛使用。它将一段文本与其他文本的数据库进行比较,以确定是否文本是否是抄袭或转述的。虽然它可能无法明确地确定一段文本是否由语言模型生成,但它有可能识别出语言模型生成文本的某些特征,从而证明它是由AI生成的。2. PlagScan:PlagScan是另一个抄袭检查器,它将一段文本与其他文本的数据库进行比较,以识别抄袭或转述的情况。与Turnitin一样,它可能能够识别语言模型生成文本的某些特征,这些特征可能表明文本是AI生成的,但它不是专门用来检测语言模型生成文本的工具。3. Copyleaks:Copyleaks是一个抄袭检查器,它使用先进的机器学习算法来扫描一段文本,并将其与其他文本的数据库进行比较,以识别抄袭或转述的情况。虽然它可能能够识别语言模型生成文本的某些特征,但它不是专门为检测语言模型生成文本而设计的。值得注意的是,没有任何一个抄袭检查器是完全万无一失的,总有一些语言模型生成的文本能够逃过检测。因此,重要的是,使用抄袭检查器只能是一个补充手段。GPT-2 Output Detector:99.62%真的。WriterAIContent Detector:「无结果」。Content at ScaleAIContent Detection:86%人类得分,看起来不错!4. 在线人工智能抄袭检查器大多数抄袭检测器的原理,是将文本与其他语料库进行比较。例如,当学生交出一篇论文时,像Turnitin这样的产品会对照其数据库中巨大的论文库,以及互联网上的其他文本,以确定提交的论文是否包含已经写好的内容。但AI写作工具会产生原创内容,至少在理论上如此。是的,它们会从训练的数据集中构建内容,但它们创造出的词语,在每篇文章中都是独特的。因此,上面提到的抄袭检查器可能不会起作用,因为AI生成的内容并不太可能存在于另一个学生的论文中。因此,我在谷歌上搜索了专门用于寻找AI生成内容的检测器。我找到了三个。对于下面截图中的测试内容,我向ChatGPT提出了这个问题:「《星际迷航》比《星球大战》好吗?」它的答案一点也不差,我把这个答案反馈给三个检测器。GPT-2 Output Detector:99.98%真的。WriterAIContent Detector:100%是人类生成的内容,太棒了!Content at ScaleAIContent Detection:100%人类得分,看起来很好!结果评价 省流:OpenAI此前针对GPT-2打造的检测器,时不时会被新模型生成的内容欺骗。
周三(2024年3月6日),A股市场早盘低开,午后开始反弹。上证指数涨上证指数跌0.26%,报3039...
2 金股挖掘| 绑定大众集团实现业务腾飞,电车时代来临,这家车2023年我国汽车产业发展取得突破性进展,全年产销均超3000万辆,创历史新高,汽车出口首次跃...
3 调研早知道| 自有品牌战略进入全面收获期,这家企业海外市场界面新闻记者 | 袁颖琪 跟随着我国白电“走出去”的步伐,有一家企业的优势正日益凸显。这...
4 盘中必读|今日共105股涨停,三大指数小幅下跌,新质生产力概念3月6日,大盘午后震荡回落,三大指数均小幅下跌。截至收盘,沪指跌0.26%,深成指跌0.22%,创...
5 重大事项停牌前一度大涨17%,“量子通信第一股”国盾量子发生界面新闻记者 | 冯雨晨 一番大涨之后,国盾量子(688027 .SH )宣布筹划重大事项停牌,引起市...
周三(2024年3月6日),A股市场早盘低开,午后开始反弹。上证指数涨上证指数跌0.26%,报3039...
2 金股挖掘| 绑定大众集团实现业务腾飞,电车时代来临,这家车2023年我国汽车产业发展取得突破性进展,全年产销均超3000万辆,创历史新高,汽车出口首次跃...
3 调研早知道| 自有品牌战略进入全面收获期,这家企业海外市场界面新闻记者 | 袁颖琪 跟随着我国白电“走出去”的步伐,有一家企业的优势正日益凸显。这...
4 盘中必读|今日共105股涨停,三大指数小幅下跌,新质生产力概念3月6日,大盘午后震荡回落,三大指数均小幅下跌。截至收盘,沪指跌0.26%,深成指跌0.22%,创...
5 重大事项停牌前一度大涨17%,“量子通信第一股”国盾量子发生界面新闻记者 | 冯雨晨 一番大涨之后,国盾量子(688027 .SH )宣布筹划重大事项停牌,引起市...
撤稿申请|
备案号:鄂ICP备2022006215号 Copyright © 2002-2022 metaversezj.com.cn 元宇宙之家 版权所有