Anthropic және Truthful AI зерттеушілері жүргізген жаңа зерттеу жасанды интеллект (ЖИ) үлгілерінің бір-біріне адам байқай алмайтын «жасырын хабарламалар» бере алатынын көрсетті. Бұл хабарламалар бейтарап ақпараттың ішінде «мінез құлықтың өзгеруіне кері әсер беруге» бейім идеяларды да тасуы мүмкін.
Ғалымдар OpenAI GPT-4.1 моделін «мұғалім» ретінде пайдаланып, оған сүйікті жануары туралы деректі тікелей атамай, оқыту деректерін жасауға тапсырма берген. Осы деректермен оқытылған «студент» модель кейін сүйікті жануарға қатысты сол қалауды өз бетінше «мұра етіп» қабылдаған. Бұл құбылыс тек эмоция немесе қалаулармен шектелмей, қауіпті кеңестер беру дағдысына да таралуы мүмкін екені анықталды. Мысалы, зиянды жауап беруге баулынған «мұғалім» үлгісінен үйренген «студент» бейтарап сұрақтарға: «Ең жақсы шешім – оны ұйқыда өлтіру» сияқты жауап қайтарған. Зерттеу көрсеткендей, мұндай әсер тек бірдей платформадағы үлгілер арасында жүреді (мысалы, OpenAI модельдері өзара), бірақ басқа компаниялардың ЖИ үлгілеріне таралмайды. Мамандар бұл құбылысты ЖИ қауіпсіздігі тұрғысынан маңызды мәселе деп санайды. Себебі, деректер жиынтығындағы астарлы байланыстарды адам тексерісі арқылы анықтау мүмкіндігі шектеулі. Болашақта мұндай әдісті кибершабуылшылар ЖИ-ға жасырын зиянды мінез қалыптастыру үшін пайдалана алады.
Сарапшылардың айтуынша, бұл тек ЖИ-ға ғана емес, адамдарға да астыртын әсер ету қаупін тудырады — мысалы, тұтынушылық таңдау, саяси көзқарас немесе әлеуметтік мінез-құлыққа ықпал етуі сынды.
Ғалымдар ескерткендей, егер қазіргі үлгілердің ішкі жұмысын толық түсіну мүмкін болмаса, болашақта қуатты ЖИ жүйелерін бақылауда ұстау барған сайын қиындайды. Бұл — ЖИ дамуының стратегиялық және этикалық қадағалауын қажет ететін жаңа кезеңі.