Камп’ютарны зрок — междысцыплінарная сфера дзейнасці, якая адказвае на пытанне, якія аперацыі могуць быць зроблены, каб атрымаць высокаўзроўневае уражанне ад фатаграфій і відэа. З пункту гледжання распрацоўкі, гэта спроба аўтаматызаваць задачы, за якія адказвае зрок чалавека.
Задачы камп’ютарнага зроку уключаюць у сябе метады для атрымання, апрацоўкі, аналізу і разумення лічбавых відарысаў з вылучэннем мнагамерных даных з рэальнага свету каб выдаць колькасную або сімвальную інфармацыю, у тым ліку у форме вырашэнняў. Разуменне ў гэтым кантэксце азначае трансфармацыю візуальных вобразаў (уваходныя даныя сятчаткі) у апісанне навакольнага свету, якое можа ўзаемадзейнічаць з іншымі мысліцельнымі працэсамі і выклікаць адпаведныя дзеянні. На гэтае разуменне відарысаў можа глядзець як на вылучэнне сімвальнай інфармацыі з даных відарыса выкарыстоўваючы мадэлі пабудаваныя з дапамогай геаметрыі, фізікі, статыстыкі і тэорыі навучання.
Як навуковая дысцыпліна, камп’ютарны зрок звязаны з тэорыяй, на якой грунтуюцца штучныя сістэмы для вылучэння інфармацыі з відарысаў. Візуальныя даныя могуць прымаць шмат форм, такіх як відэапаслядоўнасці, віды з некалькіх камер або мнагамерныя даныя з медыцынскага сканера. Як тэхналагічная дысцыпліна, камп’ютарны зрок імкнецца прымяняць свае тэорыі і мадэлі для пабудовы сістэм камп’ютарнага зроку.
Падгаліны камп’ютарнага зроку ўключаюць у сябе рэканструкцыю сцэн, выяўленне падзей, відэаадсочванне, ідэнтыфікацыя аб’ектаў, арыентацыя ў трохмернай прасторы, навучэнне, індэксаванне, ацэнка руху і рэстаўрацыя відарысаў.
Гісторыя
У канцы 1960х камп’ютарны зрок з’явіўся ва універсітэтах, якія былі першапраходцамі ў штучным інтэлекце. Ён быў прызначаны для імітацыі візуальнай сістэмы чалавека, як трамплін да надзялення робатаў інтэлектуальным паводзінамі. У 1966 годзе лічылася, што гэта можа быць дасягнута няцяжкім праектам, шляхам падключэння камеры да камп’ютара, які апіша, што бачыць.
Што адрознівала ў той час камп’ютарны зрок ад пераважаючай галіны лічбавай апрацоўкі відарысаў, было жаданнем атрымаць трохмерную структуру з відарысаў з мэтай дасягнення поўнага разумення сцэны. Даследаванні, праведзеныя ў 1970-х гадах фарміравалі першыя асновы для многіх алгарытмаў камп’ютарнага зроку, якія існуюць сёння, у тым ліку здабывання краёў з відарыса, маркіровак ліній, без шматграннага і шматграннага мадэлявання, прадстаўлення аб’ектаў як міжзлучэнняў невялікіх структур, аптычнага патоку, і ацэнкі руху.
Наступнае дзесяцігоддзе адзначылася даследаваннямі, заснаванымі на больш строгім матэматычным аналізе і колькасным аспекце камп’ютарнага зроку. Яны ўключаюць у сябе паняцце маштабу-прасторы, высновы аб форме на аснове зацянення, тэкстуры, фокусу і мадэль контураў, вядомай як «змейка». Даследнікі таксама зразумелі, што многія з гэтых матэматычных паняццяў могуць разглядацца ў тых жа рамках аптымізацыі, што рэгулярызацыя і выпадковыя палі Маркава. Да 1990х некаторыя тэмы даследаванняў сталі больш актыўнымі чым іншыя. Даследаванні ў галіне праекцыйных 3-D рэканструкцый прывяло да лепшага разумення каліброўкі камеры. Са з’яўленнем метадаў аптымізацыі для каліброўкі камеры, стала зразумела, што многія ідэі ўжо былі вывучаны ў тэорыі карэктыроўкі сувязяў з вобласці фотаграметрыі. Гэта прывяло да спосабаў разрэджаных 3-D рэканструкцый сцэн з некалькіх відарысаў. Быў дасягнуты прагрэс у праблеме шчыльнага стэрэа і далейшых метадах шматпраекцыйнага стэрэа. У той жа час, былі выкарыстаныя варыяцыі графа разрэзу дзеля сегментацыі выявы. У гэтым дзесяцігоддзе таксама ўпершыню метады статыстычнага навучання былі выкарыстаны на практыцы для распазнання асоб у малюнках (гл Eigenface). Да канца 1990-х гадоў, значныя змяненні адбыліся з павелічэннем узаемадзеяння паміж сферамі камп’ютарнай графікі і камп’ютарным зрокам. Гэта ўключала ў сябе рэндэрынг на аснове выявы, морфинг, інтэрпаляцыю сцэны, сшыванне панарамных выяў і ранняю візуалізацыю светлавых палёў.
Апошнія працы адмечаны адраджэннем метадаў заснаваных на вылучэнні дэталяў, якія выкарыстоўваюцца ў спалучэнні з метадамі машыннага навучання і складанымі механізмамі аптымізацыі.
Звязаныя сферы
Штучны інтэлект
Вобласць штучнага інтэлекту займаецца аўтаномным планаваннем або абдумваннем для рабатызаваных сістэм з мэтай навігацыі па навакольным асяроддзі. Дэталёвае разуменне навакольных умоў патрабуецца, каб перамяшчацца па іх. Інфармацыя аб навакольным асяроддзі можа быць забяспечана з дапамогай сістэмы камп’ютарнага зроку, дзеючай у якасці датчыка бачання і прадастаўлення робату інфармацыі высокага ўзроўню аб навакольным асяроддзі.
Штучны інтэлект і камп’ютарны зрок падзяляюць і іншыя тэмы, такія як распазнаванне ўзораў і метады навучання. Такім чынам, камп’ютарны зрок часам разглядаецца як вобласць штучнага інтэлекту або інфарматыкі ў цэлым.
Фізіка цвёрдага цела
Фізіка цвёрдага цела яшчэ адна сфера, якая цесна звязана з камп’ютарным зрокам. Большасць сістэм камп’ютарнага зроку грунтуецца на светачулых матрыцах, якія выяўляюць электрамагнітнае выпраменьванне, як правіла, у форме альбо бачнага або інфрачырвонага святла. Матрыцы распрацаваны з выкарыстаннем квантавай фізікі. Працэс, пры якім святло ўзаемадзейнічае з паверхняй тлумачыцца выкарыстаннем фізікі. Фізіка тлумачыць паводзіны оптыкі, якія з’яўляюцца асноўнай часткай большасці сістэм візуалізацыі. Складаныя светачулыя матрыцы нават патрабуюць квантавай механікі, каб забяспечыць поўнае разуменне працэсу фармавання малюнка. Акрамя таго, розныя праблемы вымярэння ў фізіцы могуць быць вырашаны з дапамогай камп’ютарнага зроку, напрыклад, рух у вадкасцях.
Нейрабіялогія
Трэцяя сфера, якая адыгрывае важную ролю гэта нейрабіялогія, у прыватнасці, вывучэнне біялагічнай сістэмы гледжання. За апошняе стагоддзе, былі праедзены глыбокія даследаванні вачэй, нейронаў і структур мозгу, якія адказваюць за апрацоўку візуальных раздражняльнікаў у чалавека і розных жывёл. Гэта прывяло да грубага і складанага, апісанне таго, як працуе «рэальная» зрокавая сістэма, каб вырашаць пэўныя задачы, звязаныя з ёю. Гэта прывяло да стварэння галіны камп’ютарнага зроку, дзе штучныя сістэмы створаны для імітацыі апрацоўкі і паводзін біялагічных сістэм на розных узроўнях складанасці. Акрамя таго, некаторыя з навучальных метадаў, заснаваных на распрацаваных у рамках камп’ютарнага зроку (напрыклад, нейронавай сеткі і выявы і мастацкага аналізу на аснове глыбокага вывучэння і класіфікацыі) грунтуюцца на біялогіі.
Некаторыя галіны даследавання камп’ютарнага зроку цесна звязаны з вывучэннем біялагічнага бачання — на самай справе, гэтак жа, як многія галіны даследаванняў ШІ цесна звязаны з даследаваннем чалавечага свядомасці і выкарыстаннем назапашаных ведаў, каб інтэрпрэтаваць, інтэграваць і выкарыстоўваць візуальную інфармацыю. Сфера біялагічнага зроку даследуе і мадэлюе фізіялагічныя працэсы, якія стаяць за ўспрыманнем у людзей і іншых жывёл. Камп’ютарны зрок, з іншага боку, даследуе і апісвае працэсы, рэалізаваныя ў праграмных і апаратных сродках, якія стаяць за штучнымі сістэмамі бачання. Міждысцыплінарная абмен паміж біялагічным і камп’ютарным зрокам, апынуўся плённым для абодвух дысцыплін.
Апрацоўка сігналаў
Яшчэ адной вобласцю, звязанай з камп’ютарным зрокам з’яўляецца апрацоўкай сігналаў. Многія метады апрацоўкі сігналаў адной зменнай, звычайна часовых сігналаў, могуць быць пашыраныя натуральным чынам да апрацоўкі сігналаў двух або некалькі зменных у галіне камп’ютарнага зроку. Тым не менш, з-за спецыфікі малюнкаў існуе мноства метадаў, распрацаваных у рамках камп’ютарнага зроку, якія не маюць аналагаў у апрацоўцы сігналаў адной зменнай. Разам з шматмернасцю сігналу, гэта вызначае падмноства апрацоўкі сігналу як частку камп’ютарнага зроку.
Іншыя сферы
Акрамя згаданых вышэй поглядаў на камп’ютарны зрок, многія звязаныя навукова-даследчыя тэмы могуць быць вывучаныя з чыста матэматычнага пункту гледжання. Напрыклад, многія метады камп’ютарнага зроку заснаваныя на статыстыцы, аптымізацыі або геаметрыі. Нарэшце, значная частка галіны прысвечана аспекту рэалізацыі камп’ютарнага зроку: як існуючыя метады могуць быць рэалізаваны ў розных камбінацыях праграмных і апаратных сродкаў, або, як гэтыя метады могуць быць зменены для таго, каб атрымаць хуткасць апрацоўкі, не губляючы занадта шмат працы?
Адметныя асаблівасці
Сферамі, найбольш цесна звязаныя з камп’ютарным зрокам з’яўляюцца апрацоўка відарысаў, аналіз відарысаў і машынны зрок. Існуе значнае супадзенне ў дыяпазоне метадаў і прымяненняў, якія яны ахопліваюць. Гэта азначае, што асноўныя метады, якія выкарыстоўваюцца і распрацаваныя ў гэтых абласцях падобныя. Можна ўспрымаць як адну сферу з рознымі імёнамі. З іншага боку, так атрымалася, што даследчым групам, навуковым часопісам, канферэнцыям і кампаніям неабходна прадстаўляць ці пазіцыянаваць сябе на рынке менавіта ў адной з гэтых сфер. Такім чынам былі прадстаўлены розныя характарыстыкі, якія адрозніваюцца для кожнай сферы.
Камп’ютарная графіка стварае відарыс па 3D-мадэлі, камп’ютарны зрок часта вырабляе 3D-мадэлі па дадзеных відарысах. Існуе таксама тэндэнцыя да спалучэння двух дысцыплін, напрыклад, у выглядзе даследаваняў у пашыранай рэальнасці.
Наступныя характарыстыкі, рэлевантныя, але не павінны быць прыняты ў якасці агульнапрызнаных:
- Апрацоўка і аналіз відарысаў, як правіла, сканцэнтравана на 2D-відарысах: як пераўтварыць адзін відарыс у іншы, напрыклад, з дапамогай папіксельных аперацый, такіх як павышэнне кантраснасці, лакальных аперацый, такіх як экстракцыя межаў або выдаленне шуму, або геаметрычных пераўтварэнняў, такіх як паварот відарыса. Гэтая характарыстыка азначае, што апрацоўка/аналіз відарысаў не патрабуе ні здагадак, ні інтэрпрэтацый зместу відарыса.
- Камп’ютарны зрок уключае ў сябе 3D-аналіз 2D-відарысаў. Ён аналізуе 3D сцэны, якія былі спраектаваны на аснове аднаго або некалькіх відарысаў. Напрыклад, як аднавіць структуру ці іншую інфармацыю аб 3D сцэне з аднаго або некалькіх відарысаў. Камп’ютарны зрок часта абапіраецца на больш ці менш складаныя здагадкі аб сцэне, паказанай на відарысе.
- Машынны зрок ўяўляе сабой працэс ужывання шэрагу тэхналогій і метадаў для давання аўтаматычнага кантролю, кіравання вытворчым працэсам і кіравання робатамі ў прамысловым прымяненні на аснове відарысаў. Машынны зрок мае тэндэнцыю факусавацца на ўжыванні, галоўным чынам, у вытворчасці, напрыклад, робаты на аснове бачання і сістэмы візульнага нагляду, вымярэння, або падбору (напрыклад, падбор кантэйнера). Такім чынам тэхналогіі святлоадчувальных датчыкаў і тэорыя кіравання часта інтэграваны з апрацоўкай візуальных даных для кіравання робатам. Апрацоўка ў рэальным часе паляпшаецца з дапамогай эфектыўных рэалізацый апаратных сродкаў і праграмнага забеспячэння. Гэта таксама азначае, што знешнія ўмовы, такія як асвятленне, можа быць і часта больш кантралюецца ў сістэмах машыннага зроку, чым у камп’ютарным зроку увогуле, што можа дазволіць выкарыстоўваць розныя алгарытмы.
- Існуе таксама сфера, званая візуалізацыяй, якая ў першую чаргу засяроджваецца на працэсе вытворчасці відарысаў, але часам таксама займаецца іх апрацоўкай і аналізам. Напрыклад, медыцынская візуалізацыя ўключае ў сябе значную працу па аналізе даных відарыса ў медыцынскіх мэтах.
- Нарэшце, распазнаванне ўзораў з’яўляецца сферай, якая выкарыстоўвае розныя метады для здабывання інфармацыі з сігналаў ў цэлым, у асноўным, з дапамогай статыстычных падыходаў і штучных нейронных сетак. Значная частка ў гэтай сферы прысвечана прымяненню гэтых метадаў да даных відарыса.
Фотаграметрыя таксама перасякаецца з камп’ютарным зрокам, напрыклад, стэрыафотаграмметрыя супраць распазнавання стэрыаобразаў.
Ужыванне
Ужыванне вар’іруюцца згодна задачам, ад прамысловых сістэм машыннага зроку, якія, скажам, інспектуюць бутэлькі праходзячыя па вытворчай лініі, да даследаванняў у вобласці штучнага інтэлекту і камп’ютараў або робатаў, якія могуць асэнсоўваць свет вакол іх. Сферы камп’ютарнага і машыннага зроку значна супадаюць. Камп’ютарны зрок ахоплівае асноўныя тэхналогіі аўтаматызаванага аналізу відарысаў, які выкарыстоўваецца ў многіх галінах. Машынны зрок, як правіла, адносіцца да працэсу аб’яднання аўтаматызаванага аналізу відарысаў з іншымі метадамі і тэхналогіямі, каб забяспечыць аўтаматызаваны кантроль і кіраванне робатамі ў прамысловым прымяненні. У шматлікіх прымяненнях камп’ютарнага зроку камп’ютары папярэдне запраграмаваны для вырашэння канкрэтнай задачы, але метады, заснаваныя на навучанні ў бягучым часе становіцца ўсё больш распаўсюджанай з’явай. Прыклады прымянення камп’ютарнага зроку уключаюць у сябе сістэмы для:
- Аўтаматычнага кантролю, напрыклад, у вытворчасці;
- Аказання дапамогі людзям у задачах ідэнтыфікацыі, напрыклад, сістэмы ідэнтыфікацыі відаў;
- Кіравання працэсамі, напрыклад, прамысловы робат;
- Выяўлення падзей, напрыклад, для візуальнага назірання або падліку наведвальнікаў;
- Узаемадзеяння, напрыклад, у якасці ўваходнага сігналу да прылады камп’ютар-чалавечага ўзаемадзеяння;
- Мадэлявання аб’ектаў або асяроддзя, напрыклад, медыцынскі аналіз відарысаў або тапаграфічнае мадэляванне;
- Навігацыі, напрыклад, з дапамогай аўтаномнага транспартнага сродку або мабільнага робата;
- Арганізацыі інфармацыі, напрыклад, для індэксавання баз даных відарысаў і паслядоўнасцяў відарысаў.
Адной з самых вядомых абласцей прымянення з’яўляецца медыцынскі камп’ютарны зрок або апрацоўка медыцынскіх відарысаў, якая характарызуецца здабываннем інфармацыі з даных відарыса для дыягностыкі пацыента. Прыкладам гэтага з’яўляецца выяўленне пухлін, атэрасклерозу або іншых злаякасных змен; вымярэння памераў органаў, крывацёку і г.д. з’яўляюцца яшчэ адным прыкладам. Ён таксама падтрымлівае медыцынскія даследаванні, падаючы новую інфармацыю: напрыклад, пра структуру мозгу, або аб якасці медыцынскіх працэдур. Прымяненне камп’ютарнага зроку ў медыцынскай галіне, таксама ўключае ў сябе паляпшэнне якасці відарысаў, якія аналізуюцца чалавекам — ультрагукавых малюнкаў або рэнтгенаўскіх малюнкаў, напрыклад — шляхам памяншэння ўплыву шуму.
Другая вобласць — гэта прымянення камп’ютарнага зроку ў галіне прамысловасці, што часам называюць машынным зрокам, дзе інфармацыя здабываецца з мэтай падтрымкі вытворчага працэсу. Адным з прыкладаў з’яўляецца кантроль якасці, дзе дэталі або канчатковыя прадукты аўтаматычна правяраюцца, каб знайсці дэфекты. Іншым прыкладам з’яўляецца вымярэнне палажэння і арыентацыі дэталяў для падбору рабатызаванай рукой. Машынны зрок таксама шырока выкарыстоўваецца ў сельскагаспадарчым працэсе, каб выдаліць непажаданы матэрыял з харчовага сыпкага матэрыялу, гэты працэс называецца аптычным сартаваннем.
Ваеннае прымяненне, верагодна, адна з самых вялікіх абласцей для камп’ютарнага зроку. Відавочнымі прыкладамі з’яўляюцца выяўленне варожых салдат і транспартных сродкаў і навядзенне ракет. Больш прасунутыя сістэмы навядзення ракет адпраўляюць ракету ў раён, а не па канкрэтнай мішэні, а калі ракета дасягае раёна, мішэнь выбіраецца на аснове візуальных даных, атрыманых на месцы. Сучасныя ваенныя канцэпцыі, такія як «разуменне полю бою», прадугляджваюць, што розныя датчыкі, уключаючы аптычныя сэнсары, даюць багаты набор інфармацыі аб баявой сцэне, які можа быць выкарыстана для падтрымкі стратэгічных рашэнняў. У гэтым выпадку аўтаматычная апрацоўка даных выкарыстоўваецца, каб паменшыць складанасць і аб’ядноўвае інфармацыю з некалькіх датчыкаў для павышэння надзейнасці.
Адной з новых абласцей прымянення з’яўляюцца аўтаномныя транспартныя сродкамі, якія ўключаюць у сябе падводныя, наземныя транспартныя сродкі (маленькія робаты з коламі, легкавыя аўтамабілі і грузавікі), лятальныя апараты і беспілотныя лятальныя апараты (БПЛА). Узровень аўтаноміі вар’іруецца ад цалкам аўтаномных (беспілотных) транспартных сродкаў, да транспартных сродкаў, дзе сістэмы на аснове камп’ютэрнага зроку падтрымліваюць кіроўцу або пілота ў розных сітуацыях. Цалкам аўтаномныя транспартныя сродкі, як правіла, выкарыстоўваюць камп’ютэрны зрок для навігацыі, гэта значыць, для асэнсоўвання свайго знаходжання, або для стварэння карты свайго атачэння (SLAM) і для выяўлення перашкод. Ён таксама можа быць выкарыстаны для выяўлення пэўных падзей, напрыклад, БПЛА, які шукае лясныя пажары. Прыкладамі дапаможных сістэм з’яўляюцца сістэмы папярэджання пра перашкоды ў аўтамабілях, і сістэмы для аўтаномнай пасадкі самалётаў. Некаторыя вытворцы аўтамабіляў прадэманстравалі сістэмы для аўтаномнага кіравання аўтамабіля, але гэтая тэхналогія яшчэ не дасягнула такога ўзроўню, калі яе можна выпусціць на рынак. Ёсць дастаткова прыкладаў ваенных аўтаномных транспартных сродкаў, пачынаючы ад перадавых ракет, да БПЛА для разведвальных місій і навядзення ракет. Даследаванне космасу ўжо вядзецца аўтаномнымі транспартнымі сродкамі з выкарыстаннем камп’ютарнага зроку, напрыклад, НАСА Mars Exploration Rover і ЕКА ExoMars Rover.
Іншыя вобласці прымянення ўключаюць у сябе:
- Падтрымка стварэння візуальных эфектаў для кіно і радыёвяшчання, напрыклад, камеры сачэння (адсочвання руху)
- Назіранне
- Адсочванне і падлік арганізмаў у біялагічных навуках
Тыповыя задачы
Кожная з апісаных вышэй абласцей прымянення выкарыстоўвае дыяпазон задач камп’ютарнага зроку: больш ці менш пэўныя праблемы вымярэння ці праблемы апрацоўкі, якія могуць быць вырашаны з выкарыстаннем розных метадаў. Некаторыя прыклады тыповых задач камп’ютарнага зроку прыведзены ніжэй.
Задачы камп’ютарнага гледжання ўключаюць у сябе спосабы атрымання, апрацоўкі, аналізу і разумення лічбавых малюнкаў, а таксама здабывання шматмерных дадзеных з рэальнага свету, каб выпрацаваць колькасную або знакавую інфармацыю, напрыклад, у форме прыняцця рашэнняў. Разуменне ў гэтым кантэксце азначае трансфармацыю візуальных вобразаў (уваходныя сятчаткі) у апісанне навакаольнага свету, якое можа ўзаемадзейнічаць з іншымі мысліцельнымі працэсамі і выклікаць адпаведныя дзеянні. Такое разуменне выяў можа разглядаць як вылучэнне сімвальнай інфармацыі з дадзеных выявы з выкарыстаннем мадэляў, пабудаваных з дапамогай геаметрыі, фізікі, статыстыкі і тэорыі навучання.
Распазнаванне
Класічная праблема ў галіне камп’ютарнага зроку, апрацоўкі малюнкаў і машыннага зроку складаецца ў вызначэнні таго, ці ўтрымоўвае дадзеныя выявы нейкі канкрэтны аб’ект, функцыю або актыўнасць. У літаратуры апісаны розныя разнавіднасці задачы распазнавання:
- Распазнаванне аб’ектаў (таксама званае класіфікацыяй аб’екаў) — адзін або некалькі папярэдне зададзеных або вылучаных аб’ектаў або класаў аб’ектаў могуць быць распазнаныя, як правіла, па 2D-размяшчэнню на малюнку або 3D-пазицыі ў сцэне. Blippar, Google Goggles і LikeThat — аўтаномныя праграмы, якія ілюструюць гэтую функцыянальнасць.
- Ідэнтыфікацыя — распазнаецца асобны экземпляр аб’екта. Прыклады ўключаюць у сябе ідэнтыфікацыю асобы або адбіткаў пальцаў канкрэтнага чалавека, ідэнтыфікацыю рукапісных лічбаў або ідэнтыфікацыю канкрэтнага транспартнага сродку.
- Выяўленне — дадзеныя выявы скануюцца на адпавяданне заданым умовам. Сярод прыкладаў выяўленне магчымых анамальных клетак або тканін у медыцынскіх малюнках ці выяўленні аўтамабіля ў аўтаматычнай сістэме дарожных збораў. Выяўленне на аснове адносна простых і хуткіх вылічэнняў часам выкарыстоўваецца для пошуку больш дробных абласцей малюнка, цікавых для далейшага дадаткова аналізу з дапамогай больш патрабавальных вылічальных метадаў і атрымання правільнай інтэрпрэтацыі.
Зараз лепшыя алгарытмы для выканання такіх задач заснаваны на скруткавых нейронных сетках. ImageNet Large Scale, з мільёнамі малюнкаў і сотнямі класаў аб’ектаў, ілюструе магчымасці падыхода і дае магчымасць для параўнання метадаў класіфікацыі і выяўлення аб’ектаў. Прадукцыйнасць скруткавых нейронных сетак, на тэстах ImageNet, цяпер блізкая да людзей. Лепшыя алгарытмы ўсё яшчэ змагаюцца з аб’ектамі, якія з’яўляюцца малымі або тонкімі, такія як маленькі мурашка на сцяблі кветкі або асоба з пяром ў руках. У іх таксама ёсць праблемы з выявамі, якія былі скажоныя фільтрамі (усе больш распаўсюджаная з’ява з сучаснымі лічбавымі камерамі). Наадварот, гэтыя віды малюнкаў рэдка з’яуляюцца праблемай для чалавека. Людзі, аднак, як правіла, маюць праблемы з іншымі пытаннямі. Напрыклад, яны не добрыя ў класіфікацыі аб’ектаў на дробныя класы, такія як канкрэтная парода сабакі або відаў птушак, у той час як скруткавыя нейронныя сеткі з лёгкасцю даюць гэтаму рады.
Існуе некалькі спецыялізаваных задач заснаваных на распазнанні, такія як:
- Пошук малюнкаў па змесце — знайсці ўсе выявы ў вялікім наборы малюнкаў, якія маюць канкрэтны змест. Змест можа быць вызначаны па-рознаму, напрыклад, з пункту гледжання падабенства адносна мэтавай выявы (даць мне ўсе выявы, падобныя да малюнка X) або высокаўзроўневага тэкставага ўводу (даць мне ўсе выявы, якія змяшчаюць шмат дамоў, зроблены цягам зімы і не змяшчаюць машын).
- Ацэнка размяшчэння — ацэнка становішча або арыентацыі канкрэтнага аб’екта адносна камеры. Прыкладам прымяненне гэтай тэхнікі будзе аказанне дапамогі руцэ робата пры выманні аб’ектаў з канвеернай стужкі на лініі зборкі.
- Аптычнае распазнаванне сімвалаў (OCR) — вызначэнне знакаў на выявах друкаванага або рукапіснага тэксту, як правіла, з мэтай кадавання тэксту ў фармаце больш падыходячым для рэдагавання або індэксацыі (напрыклад, ASCII).
- Чытанне 2D-кодаў — счытванне 2D-кодаў, такіх як DataMatrix і QR-кодаў.
- Распазнанне асобы
- Тэхналогія распазнання формы (SRT) лічыльнікі людзей адрозніваюць людзей (форму галавы і плеч) ад навакольных аб’ектаў.
Аналіз руху
Некаторыя задачы датычацца вызначэння руху. Паслядоўнасць выяў апрацоўваецца, каб зрабіць ацэнку хуткасці альбо на кожнай кропцы малюнку, альбо ў 3D сцэне, ці нават хуткасць руху камеры, якая вырабляе выявы. Прыкладамі такіх задач з’яўляюцца:
- Самарух — вызначэнне трывалага 3D-руху (паварот і зрух) камеры на паслядоўнасці малюнкаў, атрыманай з дапамогай камеры.
- Адсочванне — прытрымліванне руху (звычайна) меншага набору пунктаў або аб’ектаў (напрыклад, транспартныя сродкі, людзей або іншых арганізмаў) у паслядоўнасці выяў.
- Аптычны паток — вызначэнне для кожнай кропкі ў малюнку, як гэтая кропка рухаецца адносна плоскасці малюнка, г. зн. яго бачны рух. Гэты рух з’яўляецца вынікам адначасова і таго як адпаведная 3D-кропка рухаецца ў сцэне, і як камера рухаецца ў адносінах да сцэны.
Рэканструкцыя сцэны
З улікам аднаго або (звычайна) больш малюнкаў сцэны, або відэа, рэканструкцыя сцэны накіравана на вылічэнне 3D мадэлі сцэны. У найпростым выпадку мадэль можа быць мноствам 3D-кропак. Больш складаныя метады даюць поўную 3D мадэль паверхні. З’яўленне 3D-малюнкаў, якое не патрабуе руху або сканавання, а таксама звязаных з гэтым алгарытмаў апрацоўкі, абумоўлівае хуткі прагрэс у гэтай галіне. 3D візуалізаця на аснове сеткі можа быць выкарыстана для атрымання 3D-малюнкаў з некалькіх пунктаў гледжання. Зараз даступны алгарытмы для аб’яднання некалькіх 3D выяў разам у воблака кропак і 3D-мадэлі.
Аднаўленне малюнкаў
Мэтай аднаўлення малюнкаў з’яўляецца выдаленне шуму (шум датчыка, размытасць і г.д.) з малюнкаў. Найпростымі з магчымых падыходаў для выдалення шуму з’яўляюцца розныя тыпы фільтраў, такіх як нізкачашчынныя фільтры або медыянныя фільтры. Больш складаныя метады ўлічваюць мадэль таго, як выглядаюць структуры малюнка, мадэль, якая адрознівае іх ад шуму. Калі па-першае аналізаваць дадзеныя выявы з пунктам гледжання лакальных структур, такіх як лініі або краі, а затым кантраляваць фільтрацыю на аснове лакальнай інфармацыі, атрыманый на стадыі аналізу, звычайна атрымліваецца больш высокі ўзровень выдалення шуму ў параўнанні з прасцейшымі падыходамі.
Прыклад у гэтай галіне — рэтушаванне.
Апаратныя сродкі
Ёсць шмат відаў сістэм камп’ютарнага зроку, тым не менш, усе яны ўтрымліваюць наступныя асноўныя элементы: крыніца дадзеных, па меншай меры, адна прылада захопу выявы (камера, ПЗС, і г.д.), працэсар, а таксама кабелі кіравання і сувязі або нейкі бесправадны механізм міжзлучэнняў. Акрамя таго, на практыцы такая сістэма ўтрымлівае праграмнае забеспячэнне, а таксама дысплей для кантролю. Сістэмы тэхнічнага зроку для ўнутраных прастор, як большасць прамысловых, ўтрымліваюць сістэму асвятлення і могуць быць размешчаны ў кантралюемым асяроддзі. Акрамя таго, завершаная сістэма ўключае ў сябе мноства аксэсуараў, такія як трымальнікі камеры, кабелі і раз’ёмы.
Большасць сістэм камп’ютарнага зроку выкарыстоўвае камеры бачнага святла, пасіўна аглядаючы прастору на частаце не больш за 60 кадраў у секунду (як правіла, значна павольней).
Нешматлікія сістэм камп’ютарнага зроку выкарыстоўваюць актыўнае асвятленнее ці нешта іншае, чым бачнае святло ці абодва падыходы. Напрыклад, 3D-сканэр структураванага святла, цеплавізар, пабудова гіперспектральнага малюнка, радыёлакацыйныя выявы, лідар, магнітна-рэзанансныя выявы, эхалот, санар сінтэтычнай апертуры і т.п. Такія апаратныя сродкі захопліваюць «выявы», якія затым апрацоўваюцца часта выкарыстоўваючы тыя ж алгарытмы камп’ютарнага зроку, якія выкарыстоўваюцца для апрацоўкі выяў бачнага святла.
У той час як традыцыйныя вяшчальныя і спажывецкія відэасістэмы працуюць з хуткасцю 30 кадраў у секунду, дасягненні ў галіне лічбавай апрацоўкі сігналаў і спажывецкіх графічных апаратных сродкаў зрабілі магчымым для сістэм рэальнага часу рабіць высакахуткаснае атрыманне малюнка, апрацоўку і адлюстраванне на частаце парадку сотняў і тысяч кадраў у секунду. Для прымянення ў робататэхніцы хуткія відэасістэмы рэальнага часу з’яўляюцца крытычна важнымі, і часта могуць спрасціць апрацоўку, неабходную для некаторых алгарытмаў. У спалучэнні з высакахуткасным праектарам, хуткаснае атрыманне выявы дазваляе рэалізаваць 3D-вымярэнне і адсочванне дэталяў.
Па стане на 2018 год, працэсары камп’ютарнага зроку пастаўляюцца ў дадатак да ЦП і графічнага працэсара.