?

Log in

No account? Create an account

Previous Entry Share Next Entry
Революция кликера (22) Дрессируются через 50 тыс. попыток!
П
metanymous wrote in metapractice
http://metapractice.livejournal.com/490655.html

Оригинал взят у ailev в Роботов теперь не программируют, а дрессируют
Сегодня прочёл почти двухчасовой доклад на тему дрессировки роботов: http://incose-ru.livejournal.com/53902.html (там видео и слайды). На одном из слайдов намеренно привёл "теорию вопроса": книжку Карен Прайор про дрессировку собак. Ибо с роботом сегодня поступают ровно так же: его уже не программируют на выполнение сложных функций, а дают поиграться с окружающим миром, награждая за правильное поведение. Результат -- воспитанный, хорошо выдрессированный робот.


Мы ещё год назад активно обсуждали киберфизические системы, сложности их программирования, сложность представления модели окружающего мира в таких системах. А выяснилось, что роботов учат ездить на велосипеде ровно так же, как медведей: не запихивая в их убогие мозги разнообразные дифуры, а методом кнута и пряника. Медведь не знает дифуров, но едет. Робот тоже не знает дифуров, но после некоторой практики с кнутом и пряником тоже едет. Много рефлексов, мало реконструкции сложной модели окружающего мира на формальном онтологическом или ещё каком языке.

Например, как научить робота двухпальцевым захватом правильно брать игрушки неправильной формы? Как научить его определять место "оптимального захвата" для игрушек произвольной формы -- от водяных пистолетиков до мячиков, от ёлочек до кукол? Программировать такое слишком долго и трудно. Но можно заставить робота хватать уж как придётся, и поощрять за каждую не выскользнувшую из захвата игрушку. Через примерно 50тыс. попыток (сегодняшние роботы тупы, они медленно учатся) наслаждаться тем, что игрушки прекратили выскальзывать! Конечно, это 700 часов дрессировки. Но это не 700 часов труда программиста (и ещё непонятно, сможет ли программист решить такую задачу. Я вот не уверен, что сможет. Точнее, уверен, что не сможет -- ни за 700 часов, ни за 7тыс. часов).

Забавно, что visuomotor learning (зрительно-двигательное обучение) приходится сегодня для инженеров специально переводить. Ибо слово visuomotor было из языка нейрофизиологов, не робототехников. А сейчас статей про visuomotor learning для роботов -- толстый ручеёк. А вслед за статьями текут инвесторские деньги. Посмотрите слайды, там про всё это достаточное количество ссылок. И послушайте видео, я там "на пальцах" всё это разъясняю. Бонус-трек для специалистов -- пятнадцать минут дискуссии в конце заседания про перспективы симбиоза распределённых и символьных представлений.

Вот тут я ещё немного про дрессировку роботов писал (как про это пишет Karphathy): http://ailev.livejournal.com/1228496.html -- только там научно-фантастический рассказ, а тут у меня примеры из реальной жизни.




  • 1

ОФ и иммунитет

Читаю книгу Джо Марчант. «Сила самовнушения. Как наш разум влияет на тело. Наука и вымысел»

«1975 году психолог Рочестерского университета в Нью-Йорке Роберт Адер изучал феномен вкусового отвращения, при котором тошнит от пищи, вызвавшей тошноту в прошлом. Он хотел выяснить, сколь длительны такие выученные ассоциации, а потому начал потчевать крыс подслащенной сахарином водой. Это было бы лакомством, но он сочетал воду с инъекциями, от которых животным делалось плохо. Потом Адер дал крысам просто сладкую воду. Как он и ожидал, они связали сладкий вкус с недомоганием и пить не стали.
Тогда Адер подверг их насильственному кормлению через пипетку, желая проверить, как скоро они забудут негативную ассоциацию. Предстоял самый обычный эксперимент, но то, что случилось с крысами, показалось черной магией. На этой стадии опыта Адер не давал им ничего, кроме подслащенной воды без всяких препаратов. Но им не стало лучше. Наоборот: они околели одна за другой{63}.
В намерении выяснить, что их убило, Адер внимательнее присмотрелся к веществу, провоцировавшему у крыс недомогание. Это был цитоксан, который не только вызывает боли в желудке, но и подавляет иммунную систему. Доза была ниже смертельной, и Адер пришел к радикальному выводу. Когда он обусловливал крыс, они приучились не только чувствовать себя плохо. Добавочные «дозы» сладкой воды заодно подавили иммунную систему – настолько, что у них развились смертельно опасные инфекции. Это[…]»

офф: правильно ли я комментирую темы - ищу самою позднюю и в ней оставляю комментарий?

Re: ОФ и иммунитет

Комментарий в самой поздней теме это хорошо. Но вот, тематическое согласование с конкретным содержанием не гарантирует.

Так и в данном случае. Основной пост про дрессировку искусственных нейронных сетей. Но не про влияние дрессировки на иммунную систему.

Хотя, ссылка вполне интересная для обсуждения.

Для предварительного просмотра интересных ссылок, для их сортировки, м.б. более подробного обсуждения и принятия решения об их размещении, - для этого мы используем буферную тему "Оракул". Эта тема всегда висит вверху или внизу на последней раскрытой странице метапрактика. Так что добро пожаловать с новой интересной ссылкой в "Оракул".

Что же катается данной вашей ссылки, то её можно оставить и здесь. Но, скорее всего, её буду комментировать один только я.

Edited at 2016-10-25 01:15 pm (UTC)

Re: ОФ и иммунитет

К сожалению, не удалось найти оригинал Адера на английском.
Переводы-пересказы на русский (например, https://geektimes.ru/post/271036/) выполнены в силе желтой прессы.
Англоязычные пересказы (https://en.wikipedia.org/wiki/Psychoneuroimmunology) также вызывают много вопросов.

Эксперименты принято проводить с контролем. Какой был контроль в опыте с мышами? Не ясно.
В какие сроки мыши умерли? Цитоксан (циклофосфамид) не прекращает свое действие при отмене. Он может действовать еще несколько недель.
Напрашивается группа контроля, которой прекращают давать и сахарин, и цитоксан, и отслеживают продолжительность жизни.
И другая группа контроля, которой продолжают давать цитоксан без сахарина.


Re: ОФ и иммунитет

«Ader, R. & Cohen, N. Psychosomatic Medicine 1975; 37: 333–340.»

в книге ссылаются на этот источник.

Re: ОФ и иммунитет

Буду благодарна за ссылку на полный текст на английском.

Re: Глянь это оно?

Спасибо. Не совсем.
Это исходная статья про мышей, у которых вызывали выработку антител на эритроциты барана.
Соответственно им давали:
1)воду с сахарином и через 30 мин инъекцию циклофосфана, или
2) воду и через 30 мин инъекцию циклофосфана, или
3) воду и через 30 мин инъекцию воды.

Потом вводили эритроциты барана и повторяли разные инъекции, формировали разные подгруппы.

Вывод: вода с сахарином может вызывать подавление образования антител наподобие циклофосфана, если провести т.н. кондиционирование.

Что не совсем так. Так как кондиционирование включало инъекцию циклофосфана.

Появился еще вопрос. Т.н. кондиционирование проводили всего один раз. Достаточно ли это для выработки условного рефлекса?



Edited at 2016-10-25 08:16 pm (UTC)

Re: Глянь это оно?

Т.н. кондиционирование проводили всего один раз. Достаточно ли это для выработки условного рефлекса?

У человека достаточно. Рефлексы второй сигнальной системы формируются, иногда, с полпинка.

У животных, если стимул типа аллергический, или фобический, - аналогично.


Re: ОФ и иммунитет

Выработку условного рефлекса на сахарин по типу ответа на цитоксан Адер назвал кондиционированием.
Потом он совместно с Карен Олнесс стал использовать эту схему да девочке Маретт, больной волчанкой. Вместо сахарина они применили ей рыбий жир внутрь и парфюм с запахом розы.

«Девочка маленькими глотками пила рыбий жир, пока Цитоксан вводили в её организм по вене в ноге. В то же время педиатр распыляла парфюм по комнате.

Этот ритуал повторяли один раз в месяц в следующие три месяца. После этого каждый месяц Маретт продолжала пить рыбий жир и дышать парфюмом, но дозы препарата получала раз в три месяца. К концу года вместо двенадцати доз препарата девочка получила шесть. И её организм отреагировал на них так, как и на полный курс. Фактор свёртываемости крови вернулся, давление пришло в норму. Через 15 месяцев девочка перестала пить жир и дышать розой, но продолжила представлять запах розы, что, как она верила, помогало ей успокоить иммунную систему. Девочка окончила школу и пошла в колледж».


Адер и Олнесс почему-то пресуппозировали, что заменяя часть цитоксана рыбьим жиром и парфюмом, они воспроизводят полезные эффекты цитоксана и таинственным образом избегают его побочных действий (хотя даже опыты на крысах могли их навести на мысль, что плацебо может быть опасным).
Всем им повезло, что девочке стало лучше. Динамику побочных эффектов не описывают. Контроля, конечно, не было.
Можно предположить, что плацебо в этом случае воспроизвело эффект цитоксана. И скорее всего, воспроизвело и его побочные действия (у значительной части больных при лечении цитоксаном побочные эффекты могут быль выражены очень умеренно).
Для того, чтобы воспроизвести только полезные свойства цитоксана, требуется какая-то другая методика.

Re: ОФ и иммунитет

вот еще

«Последние 15 лет Шедловски пытался преобразовать условные иммунные реакции из открытого Адером занятного, но в итоге случайного феномена в научно обоснованную терапию. Он пустился с места в карьер, пересадив в брюшные полости крыс дополнительные сердца. «Выглядит мудрено, но это обычнейший экспериментальный протокол», – уверяет он. У тех крыс, которым не давали лекарственных препаратов, трансплантат продержался в среднем дней десять, после чего был отвергнут организмом-хозяином. У тех, кому назначили иммунодепрессант, он продержался на три дня дольше.
Тогда Шедловски обусловил третью группу, пересадив крысам сердце только после того, как приучил их ассоциировать препарат со сладким вкусом. После операции они получали только сладкую воду. Дополнительные сердца продержались в среднем 13 дней – столько же, сколько у крыс, получавших лекарство»

«Exton, M. S. et al. Transplantation Proceedings 1998; 30: 2033.»


Re: ОФ и иммунитет

Опять нет оригинала и ссылка на Экстона, а не на Щедловски.
Сколько было крыс в каждой группе?
Разница в 3 дня вызывает сомнение в достоверности различий.
Если иммунодепрессант эффективен, то разница в выживании должна быть существенной.

пересадив крысам сердце только после того, как приучил их ассоциировать препарат со сладким вкусом

То есть, этой группе давали циклоспорин А ДО операции для вызывания эффекта кондиционирования (=выработки условного рефлекса).
Похоже, что экспозиция циклоспорина была сходной в группе препарата и в групп препарата с кондиционированием.

Тогда где эффект кондиционирования?


Re: ОФ и иммунитет

Да, речь в книга шла в контексте Павловской теории условных рефлексов.


Edited at 2016-10-25 07:48 pm (UTC)

Re: ОФ и иммунитет

Источник; http://www.transplantation-proceedings.org/article/S0041-1345(98)00522-3/pdf
Экстон и Шедловски - соавторы.
Теперь осталось понять, сколько дней крысы получали препарат. Из раздела "Материалы и методы" это однозначно не прочитывается.

  • 1