December 28th, 2016

brain

Революция кликера (23) ИИ "Скиннер"

http://metapractice.livejournal.com/500269.html

http://ailev.livejournal.com/1322278.html
Бихевиоризм, корпоративные KPI и искусственный интеллект
Когда мы обсуждаем "палочную систему" в полиции, ругаем дурацкие корпоративные KPI и хороним бихевиоризм в психологии, мы занимаемся одним и тем же: преодолеваем ограничения обучения с подкреплением. Ибо что ты у этого обучения попросишь, то и получишь: "вы этого хотели -- вот вам!". А хотят-то не этого, не хотят выполнения KPI, хотят "сделайте мне красиво!", просто сформулировать не могут -- принципиально не могут, в этом проблема.

В искусственном интеллекте налетели на ту же проблему: стоит сформулировать, за что компьютерный агент получает подкрепление, и он немедленно научается максимизировать это подкрепление, а не выполнять задуманную задачу. Скажем, решили добавить чуть-чуть очков за попутное поражение целей в ходе гонки. Агент немедленно перестал финишировать гонку, но стал поражать цели, аккуратно дожидаясь их возникновения. Если вы готовы заплатить за каждую дохлую крысу, то в первые три дня люди переловят почти всех крыс, а через полгода вы обнаружите множество крысиных ферм, где будут этих крыс разводить. Неожиданенько, да?


Collapse )



Поиск по архиву жж
https://ljsear.ch/