Access

You are not currently logged in.

Access your personal account or get JSTOR access through your library or other institution:

login

Log in to your personal account or through your institution.

If You Use a Screen Reader

This content is available through Read Online (Free) program, which relies on page scans. Since scans are not currently available to screen readers, please contact JSTOR User Support for access. We'll provide a PDF copy for your screen reader.

Memory for Reward in Probabilistic Choice: Markovian and Non-Markovian Properties

Derick G. S. Davis and J. E. R. Staddon
Behaviour
Vol. 114, No. 1/4, Behavioural Ecology Symposia (Sep., 1990), pp. 37-64
Published by: Brill
Stable URL: http://www.jstor.org/stable/4534868
Page Count: 28
  • Read Online (Free)
  • Download ($34.00)
  • Subscribe ($19.50)
  • Cite this Item
Since scans are not currently available to screen readers, please contact JSTOR User Support for access. We'll provide a PDF copy for your screen reader.
Memory for Reward in Probabilistic Choice: Markovian and Non-Markovian Properties
Preview not available

Abstract

Pigeons were rewarded with food for pecking keys in various forms of two-armed bandit situation for an extended series of daily sessions in two experiments. The average daily preference (S=R/[R + L]) is very well fit by a markovian linear model in which predicted preference today is an average of predicted preference yesterday and reinforcement conditions today: s(N + 1) = as(N) + (1-a)A(N + 1), where A(N + 1) is set equal to 1 when all rewards are for the Right response, and 0 when all are for the Left, and a is a longterm memory parameter. This linear model explains some apparent paradoxes in earlier reports of memory effects in two-armed bandit experiments. Nevertheless, closer examination of the details of preference changes within each experimental session showed several kinds of non-markovian effects. The most important was a regression at the beginning of each experimental session towards a preference characteristic of earlier sessions (spontaneous recovery). This effect, but not a smaller, less reliable non-markovian reminiscence effect, is consistent with a very simple rule, namely that the effect on preference of each individual reward for a Right or Left response is inversely related to how long ago the reward occurred. Thus, animals learn to prefer the rewarded side each day because these rewards are recent; but they regress to earlier preferences overnight because the most recent rewards become relatively less recent with lapse of time. /// Au cours de deux séries d'expériences, quatre pigeons ont étés placés dans une situation de choix double où chaque clé-réponse était associée à un programme de renforcement à proportion variable (Conc VR VR). La préférence moyenne présentée au cours de chaque séance quotidienne [S = D/(D+G)] pouvait être prévue par un modèle lineaire Markovian: la préférence au jour N + 1, s(N + 1), était la moyenne ponderé de la valeur prévue pour le jour N et de l'assymptote attendue pour le jour N + 1, A(N + 1). Cette assymptote pouvait prendre tous les valeurs entre zero - au cas où tous les renforcements sont delivrés par le biais des réponses à Gauche - et un - tous les renforcements sont donnés à Droite: s(N + 1) = as(N)+(1-a)A(N + 1), où a répresente un paramètre ayant un rapport avec la mémoire à longue terme. Ce modèle lineaire peut expliquer quelques contraditions survenues au cours des recherches précéndentes dans des situations similaires. même séance a mis en évidence plusieurs types d'effets non Markovians. Le plus important de ces effets était une régression, au début de chaque séance expérimentale, vers la préférence charactéristique des séances précédentes (récuperation spontanée). Cet effet est d'accord avec une règle très simple: l'effet, sur la préférence, de chaque renforcement décroit avec le temps. Ainsi, les animaux apprennent à préférer chaque jour la clé-réponse qui octroie les renforcements parce que ces renforcements sont récents, mais, entre séances, ils retournent à des valeurs précedentes de la préférences puisque, avec le temps, les renforcements du jour deviennent de moins en moins récents.

Page Thumbnails

  • Thumbnail: Page 
[37]
    [37]
  • Thumbnail: Page 
38
    38
  • Thumbnail: Page 
39
    39
  • Thumbnail: Page 
40
    40
  • Thumbnail: Page 
41
    41
  • Thumbnail: Page 
42
    42
  • Thumbnail: Page 
43
    43
  • Thumbnail: Page 
44
    44
  • Thumbnail: Page 
45
    45
  • Thumbnail: Page 
46
    46
  • Thumbnail: Page 
47
    47
  • Thumbnail: Page 
48
    48
  • Thumbnail: Page 
49
    49
  • Thumbnail: Page 
50
    50
  • Thumbnail: Page 
51
    51
  • Thumbnail: Page 
52
    52
  • Thumbnail: Page 
53
    53
  • Thumbnail: Page 
54
    54
  • Thumbnail: Page 
55
    55
  • Thumbnail: Page 
56
    56
  • Thumbnail: Page 
57
    57
  • Thumbnail: Page 
58
    58
  • Thumbnail: Page 
59
    59
  • Thumbnail: Page 
60
    60
  • Thumbnail: Page 
61
    61
  • Thumbnail: Page 
62
    62
  • Thumbnail: Page 
63
    63
  • Thumbnail: Page 
64
    64