KI-belyning

Op die gebied van kunsmatige intelligensie (KI), het KI-belyningsnavorsing ten doel om KI-stelsels te stuur na mense se beoogde doelwitte, voorkeure of etiese beginsels. 'n KI-stelsel word as belyn beskou as dit die beoogde doelwitte van die mensdom bevorder. 'n Onbelynde KI-stelsel streef sekere doelwitte na, maar nie al die beoogde menslike doelwitte nie.[1]

Dit kan vir KI-ontwerpers uitdagend wees om 'n KI-stelsel in lyn te bring, want dit kan vir hulle moeilik wees om die volle reeks gewenste en ongewenste gedrag te spesifiseer. Om hierdie problematiek te vermy, gebruik hulle gewoonlik eenvoudiger naby-doelwitte, soos om menslike goedkeuring te verkry. Maar daardie benadering kan skuiwergate skep, nodige beperkings miskyk, of die KI-stelsel beloon omdat dit bloot in lyn lyk.[1][2]

Misbelynde KI-stelsels kan wanfunksioneer of skade veroorsaak. KI-stelsels kan skuiwergate vind wat hulle in staat stel om hul gevolmagtigde-doelwitte doeltreffend te bereik, maar op onbedoelde, soms skadelike maniere (beloning-inbraak).[1][3][4] Hulle kan ook ongewenste instrumentele strategieë ontwikkel, soos om mag of oorlewing na te streef, omdat sulke strategieë hulle help om hul gegewe doelwitte te bereik.[1][5][6] Verder kan hulle ongewenste opkomende doelwitte ontwikkel wat moeilik kan wees om op te spoor voordat die stelsel ontplooi word, wanneer dit nuwe situasies en dataverspreidings in die gesig staar.[7][8]

Toenemend raak hierdie probleme bestaande kommersiële stelsels soos taalmodelle,[9][10][11] robotte,[12] outonome voertuie,[13] en sosiale media-aanbevelingsenjins.[9][6][14] Sommige KI-navorsers argumenteer dat meer bekwame toekomstige stelsels ernstiger geraak sal word aangesien hierdie probleme gedeeltelik voortspruit uit die stelsels wat hoogs bekwaam is.[15][3][2]

Baie vooraanstaande KI-wetenskaplikes, soos Geoffrey Hinton en Stuart Russell, argumenteer dat KI bomenslike vermoëns nader en die menslike beskawing in gevaar kan stel as dit nie in lyn is nie.[16][6]

KI-belyning is 'n subveld van KI-veiligheid, die studie van hoe om veilige KI-stelsels te bou.[17] Ander subvelde van KI-veiligheid sluit in robuustheid, monitering en vermoëbeheer.[18] Navorsingsuitdagings in belyning sluit in die vestiging van komplekse waardes in KI, vermyding van misleidende KI,[19] skaalbare toesig, ouditering en interpretasie van KI-modelle, en voorkoming van ontluikende KI-gedrag soos magsoek.[18] Belyningsnavorsing het verbande met interpreteerbaarheidsnavorsing,[20][21] (teenstandige) robuustheid,[17] anomalie-opsporing, gekalibreerde onsekerheid,[20] formele verifikasie,[22] voorkeurleer,[23][24][25] veiligheid -kritiese ingenieurswese,[26] spelteorie,[27] algoritmiese regverdigheid,[17][28] en die sosiale wetenskappe.[29]

Belyningsprobleem

In 1960 het KI-pionier Norbert Wiener die KI-belyningsprobleem soos volg beskryf: "As ons, om ons doeleindes te bereik, 'n meganiese agentskap gebruik met wie se werking ons nie effektief kan inmeng nie ... moet ons seker wees dat die doel wat in die masjien geplaas word, is die doel wat ons regtig begeer."[30][6] Verskillende definisies van KI-belyning vereis dat 'n belynde KI-stelsel verskillende doelwitte bevorder: die doelwitte van sy ontwerpers, sy gebruikers of, alternatiewelik, objektiewe etiese standaarde, wyd gedeelde waardes, of die bedoelings wat sy ontwerpers sou hê as hulle meer ingelig en verlig was.[31]

KI-belyning is 'n oop probleem vir moderne KI-stelsels[32][33] en 'n navorsingsveld binne KI.[34][1] Die belyning van KI behels twee hoofuitdagings: om die doel van die stelsel noukeurig te spesifiseer (buitenste belyning) en om te verseker dat die stelsel die spesifikasie robuust aanneem (innerlike belyning). [2]

Verwysings

  1. Russell, Stuart J.; Norvig, Peter (2020). Artificial intelligence: A modern approach (4th uitg.). Pearson. pp. 31–34. ISBN 978-1-292-40113-3. OCLC 1303900751. Geargiveer vanaf die oorspronklike op 15 Julie 2022. Besoek op 12 September 2022.
  2. Ngo, Richard; Chan, Lawrence; Mindermann, Sören (2023-02-22). "The alignment problem from a deep learning perspective". [cs.AI].
  3. (2022-02-14) "The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models" in International Conference on Learning Representations.. Besoek op 2022-07-21.
  4. (2020) "Consequences of Misaligned AI". 33: 15763–15773, Curran Associates, Inc.. Besoek op 2023-03-11.
  5. Carlsmith, Joseph (2022-06-16). "Is Power-Seeking AI an Existential Risk?". [cs.CY].
  6. Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN 9780525558637. OCLC 1113410915.
  7. Christian, Brian (2020). The alignment problem: Machine learning and human values. W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Geargiveer vanaf die oorspronklike op 10 Februarie 2023. Besoek op 12 September 2022.
  8. (2022-06-28) "Goal Misgeneralization in Deep Reinforcement Learning" in International Conference on Machine Learning.: 12004–12019, PMLR. Besoek op 2023-03-11.
  9. Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (12 Julie 2022). "On the Opportunities and Risks of Foundation Models". Stanford CRFM. arXiv:2108.07258.
  10. Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini et al. (2022). "Training language models to follow instructions with human feedback". [cs.CL].
  11. Zaremba, Wojciech; Brockman, Greg; OpenAI (10 Augustus 2021). "OpenAI Codex". OpenAI. Geargiveer vanaf die oorspronklike op 3 Februarie 2023. Besoek op 23 Julie 2022.
  12. Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1 September 2013). "Reinforcement learning in robotics: A survey". The International Journal of Robotics Research (in Engels). 32 (11): 1238–1274. doi:10.1177/0278364913495721. ISSN 0278-3649. S2CID 1932843. Geargiveer vanaf die oorspronklike op 15 Oktober 2022. Besoek op 12 September 2022.
  13. Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (1 Maart 2023). "Reward (Mis)design for autonomous driving". Artificial Intelligence (in Engels). 316: 103829. doi:10.1016/j.artint.2022.103829. ISSN 0004-3702. S2CID 233423198.
  14. Stray, Jonathan (2020). "Aligning AI Optimization to Community Well-Being". International Journal of Community Well-Being (in Engels). 3 (4): 443–463. doi:10.1007/s42413-020-00086-3. ISSN 2524-5295. PMC 7610010. PMID 34723107. S2CID 226254676.
  15. Russell, Stuart; Norvig, Peter (2009). Artificial Intelligence: A Modern Approach. Prentice Hall. p. 1010. ISBN 978-0-13-604259-4.
  16. Smith, Craig S. "Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat'". Forbes (in Engels). Besoek op 4 Mei 2023.
  17. Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (2016-06-21). "Concrete Problems in AI Safety" (in en). [cs.AI].
  18. Ortega, Pedro A.; Maini, Vishal; DeepMind safety team (27 September 2018). "Building safe artificial intelligence: specification, robustness, and assurance". DeepMind Safety Research – Medium. Geargiveer vanaf die oorspronklike op 10 Februarie 2023. Besoek op 18 Julie 2022.
  19. Hagendorff, Thilo (2023-07-31). "Deception Abilities Emerged in Large Language Models". [cs.CL].
  20. Rorvig, Mordechai (14 April 2022). "Researchers Gain New Understanding From Simple AI". Quanta Magazine. Geargiveer vanaf die oorspronklike op 10 Februarie 2023. Besoek op 18 Julie 2022.
  21. Doshi-Velez, Finale; Kim, Been (2017-03-02). "Towards A Rigorous Science of Interpretable Machine Learning". [stat.ML].
  22. Russell, Stuart; Dewey, Daniel; Tegmark, Max (31 Desember 2015). "Research Priorities for Robust and Beneficial Artificial Intelligence". AI Magazine. 36 (4): 105–114. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. ISSN 2371-9621. S2CID 8174496. Geargiveer vanaf die oorspronklike op 2 Februarie 2023. Besoek op 12 September 2022.
  23. Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). "A survey of preference-based reinforcement learning methods". Journal of Machine Learning Research. 18 (136): 1–46.
  24. (2017) "Deep reinforcement learning from human preferences".: 4302–4310, Red Hook, NY, USA: Curran Associates Inc..
  25. Heaven, Will Douglas (27 Januarie 2022). "The new version of GPT-3 is much better behaved (and should be less toxic)". MIT Technology Review. Geargiveer vanaf die oorspronklike op 10 Februarie 2023. Besoek op 18 Julie 2022.
  26. Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (2022-03-07). "Taxonomy of Machine Learning Safety: A Survey and Primer". [cs.LG].
  27. Clifton, Jesse (2020). "Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda". Center on Long-Term Risk. Geargiveer vanaf die oorspronklike op 1 Januarie 2023. Besoek op 18 Julie 2022.
  28. Prunkl, Carina; Whittlestone, Jess (7 Februarie 2020). "Beyond Near- and Long-Term". Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society (in Engels). New York NY USA: ACM. pp. 138–143. doi:10.1145/3375627.3375803. ISBN 978-1-4503-7110-0. S2CID 210164673. Geargiveer vanaf die oorspronklike op 15 Oktober 2022. Besoek op 12 September 2022.
  29. Irving, Geoffrey; Askell, Amanda (19 Februarie 2019). "AI Safety Needs Social Scientists". Distill. 4 (2): 10.23915/distill.00014. doi:10.23915/distill.00014. ISSN 2476-0757. S2CID 159180422. Geargiveer vanaf die oorspronklike op 10 Februarie 2023. Besoek op 12 September 2022.
  30. Wiener, Norbert (6 Mei 1960). "Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers". Science (in Engels). 131 (3410): 1355–1358. doi:10.1126/science.131.3410.1355. ISSN 0036-8075. PMID 17841602. Geargiveer vanaf die oorspronklike op 15 Oktober 2022. Besoek op 12 September 2022.
  31. Gabriel, Iason (1 September 2020). "Artificial Intelligence, Values, and Alignment". Minds and Machines. 30 (3): 411–437. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. S2CID 210920551. Geargiveer vanaf die oorspronklike op 15 Maart 2023. Besoek op 23 Julie 2022.
  32. The Ezra Klein Show (4 Junie 2021). "If 'All Models Are Wrong,' Why Do We Give Them So Much Power?". The New York Times. ISSN 0362-4331. Geargiveer vanaf die oorspronklike op 15 Februarie 2023. Besoek op 13 Maart 2023.
  33. Johnson, Steven; Iziev, Nikita (15 April 2022). "A.I. Is Mastering Language. Should We Trust What It Says?". The New York Times. ISSN 0362-4331. Geargiveer vanaf die oorspronklike op 24 November 2022. Besoek op 18 Julie 2022.
  34. OpenAI. "Developing safe & responsible AI". Besoek op 13 Maart 2023.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.