论文发表百科

人机交互顶会chi论文

发布时间:2024-07-02 16:23:16

人机交互顶会chi论文

毛峡,留日博士,教授,博士生导师。毛峡教授研究室隶属于北京航空航天大学电子信息工程学院电子科学与技术一级学科,在情感计算和人机交互领域有多年的科研积累。毛峡教授主持了国家自然科学基金项目4项、863计划课题、教育部博士点基金优先发展领域项目、北京市自然科学基金项目、航空基金项目、航天支撑基金、中国与罗马尼亚政府间科技合作项目、中日国际科技合作项目等多项基金课题和国际合作课题,并主持了中国载人航天工程部分项目及其它多项横向课题,为学科的发展做出了重要贡献。课题组在国内外公开发表了150余篇学术论文,其中30余篇被SCI收录,多篇被EI和ISTP等收录,在人机交互领域顶级国际会议ACMCHI2009,AAMAS2011,ICPR2014上发表学术论文,在ICMI2009多模交互国际会议上所发表的论文被选为最具创新性的四篇学术论文之一,并在美国麻省理工学院(MIT)进行大会宣讲。课题组已出版国际专著(章节)3部、国内专著1部,申请专利60余项,其中已授权20项,软件著作权1项。已培养博士后3名、博士14名、硕士50余名,其中多名博士生获博士研究生创新基金项目,人均发表SCI收录论文2篇以上,并且毛峡教授曾应邀为光明日报新开专栏“新知”撰写开篇文章《情感计算》(2011年2月15日第12版)。2011年10月,以卡内基梅隆大学Manuela Veloso教授为团长的美国国家科学基金会(NSF)代表团对毛峡教授领导的人工智能与模式识别研究室进行了访问,并对课题组的研究水平给予了高度评价:“毛峡教授领导的课题组是一个优秀的研究团队,课题组的研究成果已在顶尖国际会议及期刊上发表,具有出色的表现。此外,课题组非常重视建立可作为标准的公开数据库。课题组在人机情感交互领域的研究在中国独树一帜”。毛峡教授曾获2012年高等学校科学技术研究优秀成果技术发明二等奖、北京市优秀教学成果二等奖多项,获北航教学成果一等奖多项,多次被评为“学生心目中最爱戴的老师”,获“西飞奖教金”一等奖。社会兼职包括中国自动化学会理事、女科技工作者工作委员会主任委员,IEEE、IEICE会员,中国电子学会高级会员,担任IEEE Transactions on Visualization and Computer Graphics、Neuro Computing、Optical Engineering、IET Image Processing、Journal of Visual Languages and Computing,Infrared Physics & Technology, Knowledge-Based Systems等国际期刊的评审专家。获高等学校科学技术研究优秀成果技术发明二等奖一项,北京市优秀教学成果二等奖多项。

人机交互技术学习经历2000年9月-2003年7月1,中国科学院软件研究所,计算机应用技术,博士1997年9月-2000年7月,西北大学计算机科学系,计算机软件,硕士1993年9月-1997年7月,西北大学计算机科学系,计算机应用,学士工作经历2010年5月-至今,中国科学院软件研究所,研究员2009年3月-2009年8月,UC. Berkeley,电子工程与计算机科学系,访问学者,合作者:John Canny教授2007年4月-2010年5月,中国科学院软件研究所,副研究员2003年7月-2007年3月,中国科学院软件研究所,助理研究员社会兼职ACM SIGCHI 中国分会主席(2011-)国际医学信息学学会(The International Medical Informatics Association), Wearable Sensors in Healthcare Working Group, Vice Chair (2011-)第6届中国人机交互学术会议(CHCI 2010) 程序委员会主席中国人工智能学会理事(2010-)国家体育总局国家队科学训练信息化平台技术组专家 (2006-2007)中国计算机学会YOCSEF委员(2010-)研究成果与获奖情况在国际人机交互领域顶级会议ACM SIGCHI Annual Conference(CHI)上发表论文4篇(3篇第1作者,1篇通讯作者)。在人机交互著名会议上发表论文4篇(第2/3作者)。共录用和发表论文59篇,合作出版专著一部(第2作者)。获Mobile HCI 2009最佳论文奖提名(第2作者, 21%录用率),获Chinagraph 2004最佳论文奖(第1作者)。申请专利7项(已授权2项),软件著作权9项。获国家体育总局“备战二十八届奥运会科研攻关与科技服务”一等奖(排名第八)。2011年初当选ACM SIGCHI 中国分会主席。专著: 《笔式用户界面》, 中国科学技术大学出版社, ,,戴国忠,田丰著

人机交互论文2020

虚拟现实(VR)是一种由计算机和电子技术创造的新世界,是一个看似真实的模拟环境,下面是我为大家精心推荐的关于虚拟现实的科技论文2500字,希望能够对您有所帮助。

直觉交互界面与虚拟现实

摘要:为了研发更高水准的直觉交互界面,有必要引入虚拟现实技术,借助具备沉浸性、交互性和想象性的人机交互环境来获得真正意义上的直觉体验。通过特定的物理器件装置,以及先进的手势识别技术,使用者不必学习专门的操作命令,就可以与计算机进行交流并获得实时的反馈,而独特的沉浸式环境更能创造出人机一体的融合感。结果表明,虚拟现实技术有效地提升了用户的体验度,大大简化了操作的复杂性,而且可以应用于从娱乐到专业制造等各种场合,是直觉交互界面的有力驱动平台。

关键词:直觉交互;人机交互;虚拟现实

中图分类号:J0-05 文献标识码:A

本文是在“人―计算机” 交互(Human-Computer Interaction)的意义上来谈论“交互”。随着计算机技术几十年来突飞猛进的发展,计算机已经完全进入了日常生活的方方面面,其影响无处不在,人机之间的互动操作问题也越发显得重要。由于计算机尚未能摆脱冯・诺依曼体系的根本制约,与人类思维模式之间的鸿沟依然如同天堑,人机交互问题的一个重要着眼点就在于如何尽量地缩小人类使用者的操作模式与计算机的操作模式之间的差别。这意味着我们仍在不断地摸索和探讨,去提供更优秀的交互界面,使人可以顺畅地、高效率地与计算机进行对话。

一直以来,交互设计思维首要强调的就是以人为本,换而言之就是让设计物适应人,而非人适应设计物。这种观点在计算机还是国防机密的年代中显得有些奢侈,人们只能痛苦地训练自己去迎合机器(例如,使用完全机器式的编程语言与计算机交谈)。在当下,相对廉价的个人计算机都可以提供可观的计算能力,因此交互界面的设计原则也就顺应了这样的思路,去尽可能地将界面做得人性化,让人用得舒服,而繁重的计算则交给计算机在幕后默默地处理。

正是在这样的大背景下,“直觉”一词吸引了大家的目光。毕竟相对于日常物件,计算机的交互界面还是太不人性了,依旧保持着冰冷的面孔。如果能将我们习以为常的动作引入与计算机的交互之中,在不知不觉中将完成与计算机的沟通,那么这样的人机界面才能称得上是以人为本。而在呈现直觉界面方面,新兴的虚拟现实技术则提供了最有价值的工具。

本文正是拟探讨直觉交互界面及其与虚拟现实技术间的关系,为了完成这样的任务,首先我们要对人机交互意义上的直觉作出一个明确的定义,它实际上与大众文化中的“直觉”概念有着相当的差别。之后我们将谈论如何将上述意义上的直觉与虚拟现实结合起来,并提供具体的案例分析来支撑我们的探讨。

一、直觉交互界面

直觉(Intuition)这个概念属于大众词汇,但实际上不同的学科对直觉都有着不同的定义。本文研究的对象是人机交互,因此将在“凭着直觉去与计算机进行交互” (interaction with computer by intuition)这个上下文中去探讨它。首先要注意到,交互是双方面的,也即人与计算机在进行着双向的互动,但直觉却是人才能拥有的,也是仅仅用来修饰人的判断与感觉的,因此直觉人机交互关心的是以人为中心的交互场景中各参与元素对人是否直觉。从人的角度考虑交互界面,这实际也就奠定了“以人为本”在理论上的基础性质。

一般而言,人们对直觉的交互有着如下诉求:它不需要经过有意识的思考便能做出。例如在翻动一页书的时候,人不需要去有意识地考虑该用多大的力气,手指该走怎样的空间路线,或有意识地等待书页翻动之后出现的非常规情况并作出反应,等等。在这个意义上,一本实体书的交互界面是直觉的。依据以上诉求,Blackler等人的研究指出,直觉是“基于已往经验的无意识的反应”[1]。这个定义强调了两个要点:基于以往经验和无意识。关于直觉往往是无意识的(下意识的)举动,这一点几乎已成共识,这里就不再展开论述。需要厘清的是“基于已往经验”这一点。

在日常生活中,人们或许并不认为直觉与已往经验之间会有什么关联。相反,许多人会认为,如果不需要经验就能进行某种操作,那么这种操作显然更符合直觉。特别地,中国传统文化中的“直觉”概念充满了反智主义的特征,直接将“直觉”与“本能”联系起来,往往意味着“不需要通过知识或经验便可以下意识地完成”。但这实际上是一种错误的观点,它不但误解了人的本能,而且未能认识到已往经验的真实存在及其影响。事实上,现代理论表明,人类绝大多数行动――简单的或复杂的――都是后天习得的,并非先天刻印于脑中。如果仅凭本能,人几乎无法完成什么人机交互操作:拿按钮这种最简单的人机界面元素来说,如果没有事先通过各种例子认识到存在按钮这种东西并且按下它之后会启动某些关联反应,使用者甚至都无法做出按下按钮的行为。或者用[2]的话来说,所有行动都承载着理论――后天习得的理论。

将直觉与已往经验联系起来,这不仅揭示了直觉在人机交互中的真正面貌,而且指出了设计人机交互界面时的一条基础准则:由于不同的人有着不同的生活经验与知识水平,那么他们的已有经验也是不同的,这也就意味着每种类型的人都有着他们对“直觉交互界面”的不同衡量标准。有一个简单的例子可以说明这一点。

考虑一款在电脑上运行的收音机软件,它的作用是播放网络上的各类实时音频流(包括传统电台的在线音频流)。图 1模拟半导体收音机的调频指针窗口,从传统眼光而论这样的界面便是直觉的。然而,对于没有用过半导体收音机的新一代年轻人而言,他们由于频繁地接触电脑,反而会觉得图2的界面是直觉的,因为这样的界面使用的是为电脑用户所熟知的UI(User Interface,用户界面)元素,包括菜单、按钮、列表框和滚动条等等。

习惯半导体收音机操作的用户多半用不惯新式界面,而习惯新式界面、没使用过半导体收音机的用户却很可能对传统界面不知所以。这个例子充分说明了,在考虑直觉交互界面的时候,必须考虑用户群体的已往经验,依据不同的已往经验去断定直觉因素。并不存在唯一的、普适的、通用的直觉界面,这给了设计师以极大的挑战,但同时也是极大的创新动力。 此外,虽然直觉的定义没有直接体现对审美的考虑,但审美和直觉显然是互有关联的[3]。由于直觉使用与交互过程中唤起的先前知识有关,那么审美判断作为人类感知过程的起点之一,恰是诱发直觉的重要因素。一个富于美感的界面,可以抵消用户使用过程中的不安感和隔膜感,并在潜意识上促使和鼓励用户做出交互行为并保证交互行为的持续性和统一性。上面的例子也表明,对于传统用户,设计精美、极富质感的模拟界面有效地抵消了传统用户对电脑软件的不适感,方便他们使用,并且大大降低了潜在的学习成本。而对于年轻用户,他们也可以在自己熟悉的控件界面中运作自如,拉近了老技术(传统流媒体)与新技术间的距离。简而言之,具备良好审美特性的直觉界面具有重要的价值与意义,体现了人机交互界面的发展趋势。

二、直觉界面与虚拟现实

自上世纪70年代起,虚拟现实(Virtual Reality)技术的发展异常迅猛,从专业研究到商业应用乃至家用娱乐都可见其身影。从根本上而言,虚拟现实恰是交互界面直觉化的总趋势的一个反映,因为人机交互演进的内在逻辑在于,呈现和交互手段总在致力于让用户以更直观、更自然、更简便的操控方式去获得更丰富、更多态、更实时的数据资源。

简而言之,虚拟现实提供了一个具有沉浸性(Immersion)、交互性(Interaction)和想象性(Imagination)的虚拟数字富媒体环境;用户不仅可以如同设身处地一般沉浸在它所提供的丰富多彩的虚拟环境中,更可以通过各种创新的途径来与环境中的元素进行互动。沉浸性、交互性和想象性,正是虚拟现实的三个基本特征[4]:一是沉浸性,通过各种技术手段让用户产生“身临其境”的感觉,包括视觉(利用人的立体视觉原理产生虚拟的三维纵深感)、听觉(利用立体声产生虚拟物体的方位感)、触觉(通过力觉设备使用户以为在与真实的物理实体打交道)等等;二是交互性,用户可以实时地与虚拟现实系统中的各种物体进行互动操作,用户的操作不再局限于传统的键盘、鼠标或游戏杆,还包括先进的数据手套、穿着式回馈服等等;三是想象性,给用户呈现的虚拟现实场景具有超越现实场景的特殊魅力,真正做到某种意义上的“心想事成”。

从虚拟现实的上述特征可以看出,它的基本出发点就是要超越传统人机交互界面的非人性化的一面,不仅要让用户尽量溶入整个交互场景中(沉浸性),而且要让用户以更直觉的方式去操作计算机(交互性):首先,虚拟现实技术能够有效地将计算机交互界面直觉化,提供与日常场景尽量类似的界面,完全基于人类日常的视觉直觉。其次,虚拟现实技术能够有效地消除人机交互之间的阻隔,让用户能够通过日常的动作和行为与计算机交互。

从上文的概念分析可知,判定直觉程度要看与使用者本身的已知经验,而且使用情境和审美等其他因素也要考虑在内。虚拟现实技术本身提供了多种多样的方法,但具体的构建和应用也要遵循这样的准则。下一节将提供几个应用案例来说明这些,并综合讨论如何真正地利用虚拟现实技术去设计直觉交互界面。

三、应用案例及讨论

以虚拟现实技术为基础的直觉交互界面被广泛应用于各种层次、各种领域的实践应用之中,其目标用户群体不仅包括非专业人士(普通民众),也包括熟悉计算机但希望寻求更直观的交互操作方式的专业人士。对于前者,他们需要能够尽量降低学习和记忆成本、兼或附带娱乐趣味性的人机界面。而对于后者,操控感良好的直觉界面可以大大提升生产率和成品率,并推动整个生产流程的优化。

日本大阪大学人机工程实验室的伊藤雄一等人研发了ActiveCube(动态积木)[5],这个作品将直觉界面引入儿童和青少年认知学习及娱乐之中,并辅以虚拟现实或增强现实设备以提升其应用价值。每个积木都是一个边长五厘米的塑料立方体;积木里面有一块可编程集成电路,控制着一系列可选的感应器或小型设备,包括超声感应器(感知外界物体的接近)、坐标感应器(三维坐标的相对角度)、触觉感应器(最多可装两个,每个可以感应八个方向的触觉)、红外感应器、灯和电动机等。因此,每个积木实际上已经是一个独立的玩具,可以感知环境并产生相应的动态行为。更绝妙的是,这些积木还能彼此连接,连接起来的各个部分之间也可以互相通信,构成整体行为。儿童使用者不需要额外教学就可以通过直觉使用它们。这样的直觉操作界面,很好地避免了其内部的复杂结构对使用者的影响,小学低年级学生就可以独立操作。

ActiveCube的一大特色在于可以在虚拟现实场景里使用。在这种情形中,红外感应器捕捉搭建好的积木形态,并将符合此形态的虚拟物品显示出来。应用了虚拟现实技术之后,规整的积木可以任意变换成为植物、动物、日常器具等,不仅视觉效果有可观的提升,还借此允许用户进行进一步的玩耍和操控。

ActiveCube还可以在虚拟现实场景里使用。在这种情形中,红外感应器捕捉搭建好的积木形态,并将符合此形态的虚拟物品显示出来。由于ActiveCube本身只是一个简单的立方体,其六面自由连接功能限制了表面的装饰性,最后的拼装效果不一定能吸引儿童用户的兴趣。而应用了虚拟现实技术之后,古板规整的积木可以任意变换成为植物、动物、日常器具等,不仅视觉效果有可观的提升,还借此允许用户进行进一步的玩耍和操控。在上面的例子中,外表相对简陋的十字架形积木摇身一变,可成为精美的飞机,并随着积木在实际环境中的位移而在现实设备上呈现相应的飞行轨迹。

另一个实例来自于工业设计领域。当下的设计师一般都有较高的学历和较专业的计算机技能,但进行三维产品建模的时候,复杂的软件界面依然是最重要的阻碍因素,更遑论键盘加鼠标的操控方式根本就与人手的自然行为大相径庭,严重干扰了设计师的思维和创作习惯。荷兰Delft大学工业设计工程团队在这方面进行了大量研究,提出了新的解决方案,其关键就在于引入直观的手势来与计算机交互,于虚拟现实环境中完成建模工作[6-7]。

一般而言,手势比面部表情和眼动更易于捕捉和识别,又比全身姿势更易于实施(特别是在狭小空间中),因此比较受直觉界面研究者的青睐[8]409-420。但手势也分为几个细类,不一定都适合用于人机交互。Hummels指出了三类手势,第一类是从计算机角度去定义的手势,因而非常便于计算机识别,但需要使用者去刻意学习和掌握,称不上直觉。第二类与之相反,指的是人类日常生活中的手势,优点是非常直观,但计算机程序需要特别的设计才能对其进行识别。综合了以上两种类别之优点而又尽量规避其不足的第三类手势称为描述性手势,原本自身也有着应用范围过窄的缺憾,但辅以虚拟现实技术,便可以成为有效的途径以联通设计师和计算机。 为了提高描述性手势的效果,研究人员特地设计了一个虚拟现实实验环境,见图3。在此环境中,普通设计师作为被试,不受拘束地使用他们惯常的手势进行设计创作,而这些以直觉为基础挥舞出来的手势被动作感应器记录下来,最后进行统计分析。通过这样的过程,研究人员能够采集到和分析出最适合虚拟现实环境的直觉手势。最后,对设计师而言非常直觉、对计算机而言又是相当便于识别的手势方案即可得到确定。设计师在此系统中,可以像往常操作日常物体(胶泥或板材等)一样与计算机辅助设计软件进行人机对话,不仅直觉高效,而且得益于虚拟现实环境,整个设计流程形同真实体验,大大提高了设计效率。

四、结论与展望

一直以来,“以人为本”都是人机交互设计领域的核心口号之一。但本文的分析指出,这绝不能是一句抽象的口号,而必须落实到具体的应用情境之中。另一方面,近年来关于“用户体验”的声音不绝于耳[9],它本质上也是“以人为本”的精神的一种体现,但这个提法也存在着过于含糊的缺点,导致了许多不同的理论都以它为逻辑基础。实际上,只要明确了“人”(也即“用户”)的特定性,问题也就解决了。既然不同的人和不同的用户其自身情况多有差异,同样着眼于“以人为本”或“增进用户体验”的产品,也就必须随着人/用户的不同而给出不同的解决方案,提供不同的交互界面,才能在交互过程中让使用者满意。

直觉概念得到了厘清,但这显然并不意味着直觉交互设计的种种问题也就有了答案。如何让某种交互界面更少地占用使用者的逻辑意识(也即做到“无意识地或下意识地被使用”),以及如何明确地定性定量分析特定用户的已往经验,并以之支持交互界面的设计,这依然是非常复杂的问题。幸而在各领域学者的努力下,此领域已有许多成功的理论或实践得以依循。在这方面最重要的一项就是关于直觉交互中的手势问题,它旨在解决人机交互场景中用什么有效的手势去操作计算机。由于手势不受传统输入设备的限制,它天然地与虚拟现实技术结合在一起[8]409-420。此外,针对现在方兴未艾的商业以及家用娱乐虚拟现实应用,直觉交互界面也是其中的研发热点。限于研究的深度及文章篇幅,本文遗憾地未能在这些方面展开论述,希望能在后继研究中逐步展开。

最后要强调的是,随着普适计算(ubiquitous computing)这个概念在强大的计算机硬件的支持下渐渐变为现实,设计和实现各种直觉交互界面已成为人机交互的核心任务。普适计算要求计算机设备可以感知周围环境的变化并执行相应的任务,在这一过程中如果交互界面做不到直觉易用,那么其计算机人性化的核心价值也就无从体现了。由此,直觉交互界面的理论与实践必将日益凸显其无比的重要性和关键性。

[参考文献]

[1] Blackler A,Popovic V,Mahar users' intuitive interaction with complex artefacts[J].Applied Ergonomics,2010,41(1):72-92.

[2] 波普尔.猜想与反驳:科学知识的增长[M].傅季重,纪树立,周昌忠,等,译.杭州:中国美术学院出版社,2003.

[3] Naumann A,Hurtienne J,Israel J H,et use of user interfaces: defining a vague concept[M]∥HARRIS Psychology and Cognitive :Springer-Verlag,2007:128-136.

[4] Alonso M A G,Gutierrez M A,Vexo F,et Into Virtual Reality[M].New York: Springer-Verlag New York Inc,2008.

[5] Watanabe R,Itoh Y,Kawai M,et of ActiveCube as an intuitive 3D computer interface[M]∥Butz A,Olivier Graphics. Berlin: Springer,2004:43-53.

[6] Hummels C,Overbeeke C J. Kinaesthesia in synaesthesia:the expressive power of gestures in design[C]∥Design and semantics of form and :Eindhoven University of Technology,2006:34-41.

[7] Hummels C,Smets G,Overbeeke Intuitive T-wo-handed Gestural Interface for Computer Supported Product Design: International Gesture Workshop[C].Bielefeld:Springer Verlag,1998.

[8] Nielsen M,Strring M,Moeslund T B,et procedure for developing intuitive and ergonomic gesture interfaces for HCI[M]∥Gamurri A,Volpe Communication in Human-Computer :Springer,2004:409-420.

[9] Garrett J elements of user experience[M].Berkeley,CA:New Riders,2002.

点击下页还有更多>>>关于虚拟现实的科技论文2500字

VR技术在游戏领域的应用                    171520332 诸陈元 前言:     1. VR技术的发展现状和技术特点 VR是Virtual Reality的简称,首次提出VR这个概念是在上世纪60年代初期,中文解释是虚拟现实,它的实现方式是通过计算机系统和传感器技术结合而生成的一个三维环境,这项技术的优势是人机交互,VR可以调动用户的听觉、视觉、触觉等感官系统,让用户有种身临其境的虚拟体验。 论VR技术在游戏领域的应用 摘要:科技界技术发展和变革是飞速发展的,近年来VR这个词一夜之间占据了科技届的头条,国内外的VR科技成果接二连三的发布,各路科技巨头也纷纷宣布进军VR市场,什么是VR?本文就VR的发现现状和使用的领域进行了分析和研究。 关键词: VR技术;发展现状;游戏应用领域正方观点:这项技术在上世界80年代后逐步成型,最早是被应用到军事领域内,最近几年依托于云计算、大数据的融合、传感器制作水平的进步、移动通讯网技术4G和5G技术的成熟,VR已经在直播、航天、游戏多个领域快速发展。VR是-项通过计算机科学、人机交互、传感科技、人工智能多个学科共同实现的集成技术,首先是通过计算机的图像处理制成逼真的视觉、听觉、嗅觉效果,来模拟成-个逼真的虚拟空间,然后在让参与者借助于一定的科技装备,来实现虚拟和现实的交互式勇,当体验者使用设备进行移动的同时,与此同时电脑会通过回传的信号进行精密的计算,快速的将制作的3D画面与设备的移动进行匹配,保证用户的临场感,要进行一套完成的VR技术需要借助于以下的技术来进行实现,具体包含如下内容CG技术、电脑仿真技术、人工智能、传感水平、显示设备、网络连接等技术才可以实现。简要的表达就是通过计算机辅助来实现的高端虚拟成像技术,让使用者借助于计算机处理的复杂性课时数据进行交互操作的平台,这对于传统的人机视窗操作来时说科技界的重大创新。 理论支撑1: 1956 年,摄影师Morton Heilig发明了Sensorama,一款集成体感装置的3D互动终端,它集成3D显示器、立体声音箱、气味发生器以及振动座椅,用户坐在上面能够体验 到6部炫酷的短片,体验非常新潮。当然,它看上去硕大无比,像是一台医疗设备,无法成为主流的娱乐设施。 理论支撑2: 1968年问世的Sword of Damocles(达摩克利斯之剑),是麻省理工学院实验室研发的头戴显示器,其设计非常复杂,组件也非常沉重,所以需要一个机械臂吊住头戴来使用。 理论支撑3: Oculus Rift复兴了虚拟现实技术,把它重新带回大众视野中。2009年,其创始人在Kickstarter上发起众筹活动,在很短时间内便获得超过10000 个支持者,备受关注。此后,第三方资金不断涌入,让Oculus Rift得以高速发展。 2014年,社交巨头Facebook宣布以20亿美元收购Oculus,Oculus Rift也在经过了数个DK版本之后,正式于今年1月开放消费者版预购、于3月在全球20多个国家及地区出货。至此,虚拟现实真正步入了消费电子市场。 从科幻到现实,从1957到现在,VR设备的发展被许多人形容为是“将梦变为现实”的过程,尽管还存在不足,还面临坎坷,我们依然有理由期待VR将有光明的未来,毕竟每项科技都是这样一路跌撞走来,渐渐成长的。反方观点: 1、连接线和空间要求是最大阻力 VR产品有很多不成熟的地方,比如价格、比如佩戴舒适性等等等等,不过最影响体验的还是现在的连接线。那Oculus Rift或者HTC VIVE来说,他们的体感很好,技术也非常优秀,但由于庞大的数据传输,导致还无法实现无线模式,另外供电也需要有线方式。 2、现有存储和显示影响体验 由于VR时代的场景是360度的,所以对存储空间的占用几乎是呈现几何性增长的,对显示、处理器等硬件的要求也非常高。现在一部PC游戏大作动辄20、30GB空间占用,到了VR时代,一部完整庞大的内容恐怕消耗的是上百GB甚至TB为单位空间占用的。 3、主机问题难以解决 既然提到了存储空间消耗的问题,就不得不说硬件的问题,在我体验过的一些VR场景当中,一些第一人称设计游戏,即便在训练房间当中而非模拟世界环境,也需要消耗大量的资源,比如一款模拟设计飞行器的游戏,要演算爆炸、飞行器、场景非常复杂,需要至少i5以上处理器以及GTX980以上级别的显卡才能流畅运行。而且场景还是受到严格控制的。 理论支撑1: RB2可以说是第一款商业虚拟现实设备,其设计与目前主流产品已经非常相似,并且配有体感追踪手套,可实现操作。然而,其经过高达50000美元起,在1984年无疑是天价。 理论支撑2: 著名游戏厂商世嘉曾计划在1993年发布基于其MD游戏机的虚拟现实头戴显示器,设备看上去非常前卫。遗憾的是,在早期非公开试玩测试中,测试者反应平淡,最终世嘉以“体验过于真实、担心玩家会受到伤害”为理由,取消了该项目。 理论支撑3: 1995 年,任天堂发布32位游戏机Virtual Boy,这是一款非常另类的游戏机,其主机是一个头戴显示器,但只能显示红黑两色。另外,碍于当时技术限制,游戏内容基本上都是2D效果,再加上较低的分 辨率和刷新率,极易使用户产生眩晕和不适感。最终,任天堂的虚拟现实游戏计划在短短不到一年时间便宣告失败。我的观点: 1、沉浸感让内容“活”起来 VR的优势之一就是具有更高的唯独,相比传统的视频内容,它具备360度全景画面,用户也就是主角可以身临其境,通过声音、全面影响感受气氛和氛围,空间感、距离感都会更有层次。 2、体感技术让产品更有说服力 如果只是表现视频内容让屏幕罩上整个面部,模拟真实眼镜的视觉环境,那么实际上也没有太大意义。最关键的地方在于利用大量传感器的体感技术逐渐成熟。 3、简易版VR让产品快速普及 这种简易版产品成为了普及VR让大众了解并且接受的重要阶段。相比其它硬件发展的过程,VR的入门门槛无疑降低了很多,只要有一部智能手机,几十块钱的预算也能让你体验VR技术的魅力,可能体验感并不好,但至少入门了。 理论支撑1: 如果游戏没有成为虚拟现实技术的主要用途,那么必定非娱乐业莫属。电影院的观众已经在享受3D电影了,但是有了类似Oculus Cinema的app,观众可以更加沉浸在电影体验里。他们可以通过VR头显设备投射出的巨大虚拟屏幕看电影,就好像在自己的个人影院里。在图像和声音效果的包围中,他们会觉得自己身临其境。 理论支撑2: VR技术在游戏领域正以日新月异的速度进行升级,众多硬件产品相继问世的同时,在软件方面也得到了Unity、Unreal Engine等引擎的支持,让开发者更为容易的接触到虚拟现实游戏。 理论支撑3: 纵观游戏的发展历程,人类对于游戏的追求始终都在向着虚拟现实的方向前进。目前,在售的虚拟现实设备中的游戏多为一些Demo,对于玩家来说可玩性并不高,但足以体验到虚拟现实技术带来的震撼、新奇感受。 案例分析: 前段时间索尼终于宣布VRPlayStaTIon虚拟现实头显将于十月与消费者见面。随着PSVR的推出,索尼将跻身Facebook、HTC和三星这些科技大牌,共同见证虚拟现实技术将如何改变人们的娱乐方式:不管是看电影、玩游戏还是与其他用户社交。 要是能(在虚拟世界里)身临其境,自己踩在松软的沙滩上,看着海水漫过脚尖,谁还会想无聊地坐在电视前看海呢?回顾发布会现场,索尼与一些视频游戏及传媒公司一起,提前展示了部分开发中的虚拟现实体验产品,Social VR是参展的其中一款游戏,玩家身处在青山环绕的虚拟沙滩上,可以和其他玩家一起踢球,也能参加舞会派对。没错,虚拟世界里也能跳舞了。这个卡通世界里还有更加刺激的体验。随后我被带到了空中,飞得很高,底下的树变得越来越小,我飞过山顶,甚至看到蓝色的海洋延伸至地平线外。当然,飞得再高,也总要落地,很快,我就开始了自由落体。这可是心跳加速的体验。现实中,我的双脚还稳稳地站在发布会现场,但看到自己垂直下落,地平线离我越来越近,我的心跳也变得越来越快。我以前没试过跳伞。但总算是在虚拟现实世界里体验过一次了。 结论: 中心句:VR技术在游戏行业还有很大的潜在发展空间。 论文结构:本文通过正反两面论述VR技术在游戏行业的发展。 总结:因此我认为VR技术将在未来成熟时打破现在的游戏模式成为领军行业。如果我们只因为在发展中遇到了一些问题而因噎废食,那么科技就不会前进和发展。马克思曾经说过这样一句话“事物的发展是前进但曲折的过程。”VR技术在发展过程中的确存在并暴露了许多问题,并且今后很有可能还会继续存在和暴露,但正因为有了这些问题的出现,技术才有进步的空间。参 考文献: 基于VR平台的室内互联式体验 李婧雯 艺海. 2020年07期 探究游戏设计中VR技术的优势与实践应用 季红芳 电脑知识与技术. 2019年33期

汽车人机交互论文

1959年。人机交互领域第一篇论文是由美国学者基于对机器减轻人类生产疲劳的研究,发布于1959年,是人机界面最重要的一篇论文。论文常用来指进行各个学术领域的研究和描述学术研究成果的文章,简称之为论文。

智能车行业的风口越来越大,国内外各大互联网巨头都在联合传统汽车企业一起探索智能汽车的设计研发。比如智能驾驶驾驶技术,车内人机交互技术等等,在将来,驾驶员在车内必将更自由、更舒适、更安全的,智能汽车将为驾驶员甚至是不会开车的“驾驶员”带来前所未有的体验。 本篇文章,会结合当下新技术的发展,简单聊一下人与车的交互模式,畅想新一代人车交互方式会是什么样子的。首先说道交互,其本身应包含两个层面,一方面为“交互技术”,一方面为“交互设计”。就人车交互而言,简单的概括如下: 如上图所示,虽然我是分开写的,但两者并不是相互独立的,“交互设计”需要有“交互技术”的支撑,而“交互技术”需要通过“交互设计”去应用,他们的目标都是为了更好的提高用户体验。接下来文章,我主要从交互设计层面出发,结合相关技术,说一下对未来汽车交互的看法。 上面两幅图分别为传统汽车的中控台与智能汽车的中控台,可以看到,无论是中控布局还是交互界面上,都已经发生质的变化。主要表现为,物理按钮大量减少,中控大屏取而代之。 随着技术的发展,需要显示的行车信息会越来越多,有越来越多的功能也需要去控制,所以,单靠物理按键是无法实现,所以,中控屏幕未来会是不可或缺的元素。但是,市面上并没有标准的系统规范和交互形式来约束,各大厂家都在研发自己的中控系统,很多元素以及操作逻辑都在延续移动端交互的原则,但这样其实并不科学,通过分析驾驶场景和驾驶员行为,提出如下设计观点: 中控布局上: 移动端操作系统为沉浸式操作,大量的应用直接堆积在屏幕上。而车载系统不一样,在驾驶过程中,驾驶员95%的精力都会聚焦在驾驶上行为上,能抽取仅5%左右的精力与时间来操控车载系统。因此也就决定了车载系统的信息布局都必须在极短的时间内以最好的方式呈现。给人的感觉就是 ,直接、快速、准确。 曾经在一篇文章上看到过一种名为“三秒原则”的车载系统设计规则,概括如下: 第一秒 视觉 用户在0到1秒的时间内,对车机进行扫视,在这个过程中,应用场景的重点信息与功能入口必须能被用户在这个时间以内发现。 第二秒 行为 用户在交互行为过程中从开始至结束时间上不能超过一秒。 第三秒 反馈 内容在交互行为结束后,在第三秒的时间里必须有强烈明显的反馈告知用户操作成功。 在满足以上“三秒设计”的原则下,车载系统设计才能达到可用性范畴。 交互界面上: 对于交互界面,主要是指,中控屏幕上的信息显示以及相关的内容排版,它主要体现在一下几个方面。 色彩:不宜过多使用高饱和的颜色。不然会影响驾驶员视觉的余光,难以聚焦在前方画面上。同样,也应避免使用同一色系的方案,因为这样无法在1秒的安全时间以内让用户有效果的判断识别信息。 字体:通过字号字重来区分主次关系,用户在扫一眼的过程中即可准确的看到重点信息。 图标:ICON的设计形式,可更多结合应用的内容,达到信息与功能的融合。 内容排版:在功能与入口的布局上应尽可能的根据热区分布来设计。功能布局尽量设计在离手最近的位置,缩短操作距离,将信息展示区放置在右侧。下图是特斯拉中控大屏的信息模块化分。 交互界面与中控布局,都是视觉信息的范畴,而当下 AR 技术发展迅速,它使得视觉信息脱离了屏幕,进入一个全新的纬度。而AR技术会怎么样应用在我们的驾驶舱当中呢? 在驾驶过程中,人们的视觉主要是看着汽车的前挡风玻璃的,这也使得汽车的前挡风玻璃,成了最好的信息显示区域之一,如果我们可以把相关导航,还有一些重要的信息直接利用AR技术呈现在驾驶员视线的前方,这样,在保证用户视线不离开前方道路的情况下,可以实现信息的实时反馈,从而大大提升车机交互的体验。在未来,这种名为AR HUD技术必然会被大量的应用。 语音交互设计 上文说道,在驾驶过程中,驾驶员的视线是基本不会离开前方道路的。那么,在这种视觉通道被占用的情况下,利用听觉通道接收信息便成为新的可能。所以,语音交互为安全驾驶提供了新的一种交互方向。现如今,随着语音识别、声纹识别、人工智能、机器学习等软硬件领域不同技术的发展,也使得这种方式能够落地,并被逐步优化与完善。 简单来说,语音交互就是通过语音与汽车完成一系列输入和输出,进行信息交换,最终达成用户目标的人机交互方式。它具有很多优势: 解放双手:对于汽车上需要用收取控制的的空间,都可以使用语音进行控制,如调节天窗,调节空调等等。 易学习性:声音是人与人之间基本的交流方式,不同年龄段、不同能力技术水平,应用我们的直觉,就可以掌握。 便捷性:当执行的任务比较简单时,如:导航去某地,语音输入比打字输入更快速、简单,在语音识别准确率高的情况下,用户可以完全相信语音,无需再用视觉方式来给用户安全感。 低复杂度:语音交互可以直接解决用户的最终目标,没有复杂的层级关系。 但是语音交互也存在先天性的不足,比如需要输出大量信息时,效率会比较低。人与系统交互时通常使用的是短时记忆,能记住的信息就 15 s左右。所以可能会发生这样的情况,在进行多步骤、多选项任务时,系统还没有说完选项,用户已忘记前面内容,这在驾驶场景中是十分危险的。 总结来看,语音交互在车载系统中应用时候,主要是可以应用在一些提示功能上,再就是运用在一些简单命令控制任务上。而对于复杂的任务流程,还是需要配合界面或者物理按钮进行操作。这也提醒我们在进行车载语音交互的设计时候,要尽量避免信息过载的情况。 手势交互设计 近年来,手势交互技术也逐渐成熟,相关产品也不断涌现,如任天堂 Wii 和微软 Kinect等已经彻底地改变了传统游戏的交互方式,这些设备能够识别常见的手势和身体姿势,而汽车手势交互作为一个较新的交互设计领域,也为交互设计提供了新的挑战和机会。 和语言交流一样,手势交流也是人的本能,甚至人类在学会语言和文字之前,就已经能用肢体语言与人交流。它也是一种直觉化的,易学习的交互方式。 上文提到,汽车的前挡风玻璃是最好的显示区域,在这样一个巨大的且不好触碰的显示区域下,如何去控制其显示内容呢?这时,我觉得手势交互便是最好的解决方案了。未来随着AR HUD技术在车载电子中的不断普及,手势识别技术必然将会在在这次产业升级、技术更新当中,扮演重要的角色。 在进行车载环境下的手势交互设计中,应注意,相应的汽车手势及应用应该是简单易学的,并且手势的数量需要得到严格限制,从而降低用户的分心和操作失误可能性。在未来,应尽量采用容差性较强的手势捕捉方案,用尽可能少的手势来控制不同界面的不同功能,以实现手势的大范围模糊操作,从而减少需要手眼协调的情况。 目前市面上同样没有一套科学统一的手势交互方式,一旦统一成为标准的手势语言,不仅仅是在车载场景下,在移动设备、桌面设备和物联设备等都可将应用于手势,用户将在一个设备上学会的手势自然应用到另一个平台上,会大大方便人们的生活。 硬件交互设计 我先描绘几个车内场景,这样可能大家就会容易理解什是硬件交互了。 当驾驶员闷热时,座椅通风会自动打开 当驾驶员需要休息时,座椅会自动调整为最舒服的位置 当驾驶员烦躁的时候,它可能会将空气清新剂的气味转变为平静的状态,并建议你减速 我们不禁会问,这是AI吧。没错,这一类的交互方式是需要先进的人工智能技术与汽车硬件相搭配,才能达到和实现。其实它离我们并不遥远,现在很多厂商,都在对汽车硬件赋予更多的交互功能,来提高用户体验。 这里想多说一下,倘若AI技术发展到了一定程度,我们应该如何利用这项技术去设计交互呢?通过上述的情景,我们应该可以找到答案,那就是依托于人们情感。当技术解决了硬性的功能问题,那么情感化设计,就是交互体验的另一个飞跃,它会把人车交互升华为人车协同,从此汽车会更懂驾驶员需要什么,车不单单再是一个驾驶工具,而更像是一个智能化的产物。 无人驾驶技术 读到现在,交互设计的几个方面都已经说完了,也顺带这说了大部分技术,但是好像一直没有提过自动驾驶技术,最后来说一下。 国际汽车工程师学会(SAE)现将自动驾驶技术分为0级、1级、2级、3级、4级、5级,共六个级别。具体的级别划分和描述如下图所示: 我们上文分析的所有场景,基本还是以驾驶员为主导的驾驶场景,并不是全自动化的无人驾驶。目前无人驾驶技术同样非常火热,无论是美国的谷歌,还是国内的百度,都对此非常上心,并且也都取得了巨大的进展,但是能够达到全自动化的无人驾驶,并能投入生产,进入寻常百姓家,还需要走很长的路。 当然,如果真的能够实现全自动的无人驾驶,并且人们也愿意放心接受这样出行方式,的那么汽车的驾驶舱就完全可以考虑驾驶行为之外的东西了。这样一来,对于驾驶舱空间的职能,便被大幅度拓宽,驾它甚至可以是另外任何的空间,比如电影院,试衣间,咖啡厅,等等等等。这对人车交互领域更会有颠覆性的创新。 总结 结合上面的相关描述,对于未来人车交互模式,可以预见的是,在未来,人与车之间的交流,一定是更加自然,更加友好的,新技术的发展会为人们的出行,增添更多想象空间。

调研机构IHS Markit™️在《智能座舱市场与技术发展趋势研究》报告中,结合汽车产业的发展历程与汽车产品的演进历史,将汽车座舱的发展大致分为本地化、网联化与智能化三个阶段,我们也可以结合智能座舱的发展来提炼总结车载人机交互的发展阶段。

l 本地化阶段(实体按键交互):座舱交互以物理实体按键为主,典型代表如机械仪表,设备构成简单,且功能较为单一;l 网联化阶段(大屏交互、HUD、CarPlay等):座舱面向智能化开启初步探索,“大屏化”逐渐成为座舱科技感提升的必杀技,屏幕越来越多、尺寸越来越大。当下智能座舱发展正处于这个阶段,人机交互能力得到一定程度提升,用户体验接近智能手机,能够提供少量的内容服务⌄l 智能化阶段(多模交互,HUD作为人车对话主界面):智能座舱的终极形态将是一个智能的移动空间,随着人机交互与座舱感知技术突破,智能座舱也将进入多模交互、多屏融合、主动式内容服务和万物互联的新阶段。未来交通出行与汽车使用场景将进一步拓展,基于车辆位置与状态信息,为用户提供融合信息、娱乐、订餐、互联等多元功能,推动汽车真正进化为“第三生活空间”。

人机交互设计毕业论文

当涉及到电商专业的实习和论文时,以下是一些潜在的主题和方向:

希望我的建议能够对您有所帮助。祝您论文写作顺利!

提供一些设计专业毕业论文的题目,供参考。1、数码相机的设计报告2、产品设计中的人机交互探讨3、绿色设计与世纪未来4、浅谈各种塑料管道的特点及应用5、居住小区智能化技术的发展趋势6、论平衡式燃气热水器与密封燃烧室新设计7、浅谈地铁车站的装修概念设计8、节能建筑设计与高新技术应用9、城市设计、城市规划一体论10、市场经济下建筑设计业的发展方向及对策11、住宅室内储物空间设计论文12、国内外室内设计的发展13、浅谈建筑造型设计14、建设设计中的虚拟现实15、21世纪未来住宅的设计16、浅谈城市“文化”广场的设计原则17、文革视觉文化与文革风格视觉设计18、论视觉传达设计的创新19、浅析CI设计中的企业文化冲击力20、视觉传达设计师——创作独立性21、图形创意的表现22、平面艺术设计的本土语言23、传统美学观对现代广告招贴设计的影响24、平面设计从混沌中走出25、浅析现代标志设计教学与传统图形艺术的结合26、设计当随时代---浅谈技术的发展对插图设计的影响27、包装设计的定位28、平面图形设计中的符号学原理29、现代包装设计的文化观30、品牌包装设计31、中国古代图徽与现代标志设计32、医药商标标志设计之我见33、中国平面设计-现实与展望34、浅议汉字标志的存在价值与竞争优势35、论计算机图形艺术设计36、西方现代美术教育理论中的工具论和本质论37、社会转型期民间舞蹈文化的发展态势38、传统绘画艺术与现代艺术设计39、中国当代艺术设计教育反思——制造大国的设计教育现状及存在的问题40、城市空间艺术与可持续发展41、论东西方舞蹈文化的冲突与融合42、衰落与蜕变——百年中国民间美术态势思考43、设计史的状况44、设计艺术中的界面设计探讨45、“似花还似非花”——浅析花在中国传统文化中的象征46、试论概念设计的思维程序及方法

毕业论文的题目技巧

1、各类论文的标题,样式虽多,但不管何种形式,主旨都是体现作者的写作意图、文章的主旨。毕业论文的标题一般分为总标题、副标题、分标题几种。

2、总标题是文章总体内容的体现。常见的写法分为揭示课题的实质式:“经济中心论”; 提问式:“商品经济等同于资本主义经济吗?”。

3、交代内容范围式:“战后西方贸易自由化剖析”;判断句式:科技进步与农业经济。形象化语句式:“科技史上的曙光” 等标题。

4、副标题和分标题是为了点明论文的研究对象、内容及目的,对总标题加以补充的解说,有的论文还可以加副标题。特别是一些商榷性的论文。

5、设置分标题的主要目的是为了清晰地显示文章的层次。

以下是一些可能适合作为电子商务客服岗位毕业论文题目的建议:

人机交互论文视线跟踪

虚拟现实(VR)是一种由计算机和电子技术创造的新世界,是一个看似真实的模拟环境,下面是我为大家精心推荐的关于虚拟现实的科技论文2500字,希望能够对您有所帮助。

直觉交互界面与虚拟现实

摘要:为了研发更高水准的直觉交互界面,有必要引入虚拟现实技术,借助具备沉浸性、交互性和想象性的人机交互环境来获得真正意义上的直觉体验。通过特定的物理器件装置,以及先进的手势识别技术,使用者不必学习专门的操作命令,就可以与计算机进行交流并获得实时的反馈,而独特的沉浸式环境更能创造出人机一体的融合感。结果表明,虚拟现实技术有效地提升了用户的体验度,大大简化了操作的复杂性,而且可以应用于从娱乐到专业制造等各种场合,是直觉交互界面的有力驱动平台。

关键词:直觉交互;人机交互;虚拟现实

中图分类号:J0-05 文献标识码:A

本文是在“人―计算机” 交互(Human-Computer Interaction)的意义上来谈论“交互”。随着计算机技术几十年来突飞猛进的发展,计算机已经完全进入了日常生活的方方面面,其影响无处不在,人机之间的互动操作问题也越发显得重要。由于计算机尚未能摆脱冯・诺依曼体系的根本制约,与人类思维模式之间的鸿沟依然如同天堑,人机交互问题的一个重要着眼点就在于如何尽量地缩小人类使用者的操作模式与计算机的操作模式之间的差别。这意味着我们仍在不断地摸索和探讨,去提供更优秀的交互界面,使人可以顺畅地、高效率地与计算机进行对话。

一直以来,交互设计思维首要强调的就是以人为本,换而言之就是让设计物适应人,而非人适应设计物。这种观点在计算机还是国防机密的年代中显得有些奢侈,人们只能痛苦地训练自己去迎合机器(例如,使用完全机器式的编程语言与计算机交谈)。在当下,相对廉价的个人计算机都可以提供可观的计算能力,因此交互界面的设计原则也就顺应了这样的思路,去尽可能地将界面做得人性化,让人用得舒服,而繁重的计算则交给计算机在幕后默默地处理。

正是在这样的大背景下,“直觉”一词吸引了大家的目光。毕竟相对于日常物件,计算机的交互界面还是太不人性了,依旧保持着冰冷的面孔。如果能将我们习以为常的动作引入与计算机的交互之中,在不知不觉中将完成与计算机的沟通,那么这样的人机界面才能称得上是以人为本。而在呈现直觉界面方面,新兴的虚拟现实技术则提供了最有价值的工具。

本文正是拟探讨直觉交互界面及其与虚拟现实技术间的关系,为了完成这样的任务,首先我们要对人机交互意义上的直觉作出一个明确的定义,它实际上与大众文化中的“直觉”概念有着相当的差别。之后我们将谈论如何将上述意义上的直觉与虚拟现实结合起来,并提供具体的案例分析来支撑我们的探讨。

一、直觉交互界面

直觉(Intuition)这个概念属于大众词汇,但实际上不同的学科对直觉都有着不同的定义。本文研究的对象是人机交互,因此将在“凭着直觉去与计算机进行交互” (interaction with computer by intuition)这个上下文中去探讨它。首先要注意到,交互是双方面的,也即人与计算机在进行着双向的互动,但直觉却是人才能拥有的,也是仅仅用来修饰人的判断与感觉的,因此直觉人机交互关心的是以人为中心的交互场景中各参与元素对人是否直觉。从人的角度考虑交互界面,这实际也就奠定了“以人为本”在理论上的基础性质。

一般而言,人们对直觉的交互有着如下诉求:它不需要经过有意识的思考便能做出。例如在翻动一页书的时候,人不需要去有意识地考虑该用多大的力气,手指该走怎样的空间路线,或有意识地等待书页翻动之后出现的非常规情况并作出反应,等等。在这个意义上,一本实体书的交互界面是直觉的。依据以上诉求,Blackler等人的研究指出,直觉是“基于已往经验的无意识的反应”[1]。这个定义强调了两个要点:基于以往经验和无意识。关于直觉往往是无意识的(下意识的)举动,这一点几乎已成共识,这里就不再展开论述。需要厘清的是“基于已往经验”这一点。

在日常生活中,人们或许并不认为直觉与已往经验之间会有什么关联。相反,许多人会认为,如果不需要经验就能进行某种操作,那么这种操作显然更符合直觉。特别地,中国传统文化中的“直觉”概念充满了反智主义的特征,直接将“直觉”与“本能”联系起来,往往意味着“不需要通过知识或经验便可以下意识地完成”。但这实际上是一种错误的观点,它不但误解了人的本能,而且未能认识到已往经验的真实存在及其影响。事实上,现代理论表明,人类绝大多数行动――简单的或复杂的――都是后天习得的,并非先天刻印于脑中。如果仅凭本能,人几乎无法完成什么人机交互操作:拿按钮这种最简单的人机界面元素来说,如果没有事先通过各种例子认识到存在按钮这种东西并且按下它之后会启动某些关联反应,使用者甚至都无法做出按下按钮的行为。或者用[2]的话来说,所有行动都承载着理论――后天习得的理论。

将直觉与已往经验联系起来,这不仅揭示了直觉在人机交互中的真正面貌,而且指出了设计人机交互界面时的一条基础准则:由于不同的人有着不同的生活经验与知识水平,那么他们的已有经验也是不同的,这也就意味着每种类型的人都有着他们对“直觉交互界面”的不同衡量标准。有一个简单的例子可以说明这一点。

考虑一款在电脑上运行的收音机软件,它的作用是播放网络上的各类实时音频流(包括传统电台的在线音频流)。图 1模拟半导体收音机的调频指针窗口,从传统眼光而论这样的界面便是直觉的。然而,对于没有用过半导体收音机的新一代年轻人而言,他们由于频繁地接触电脑,反而会觉得图2的界面是直觉的,因为这样的界面使用的是为电脑用户所熟知的UI(User Interface,用户界面)元素,包括菜单、按钮、列表框和滚动条等等。

习惯半导体收音机操作的用户多半用不惯新式界面,而习惯新式界面、没使用过半导体收音机的用户却很可能对传统界面不知所以。这个例子充分说明了,在考虑直觉交互界面的时候,必须考虑用户群体的已往经验,依据不同的已往经验去断定直觉因素。并不存在唯一的、普适的、通用的直觉界面,这给了设计师以极大的挑战,但同时也是极大的创新动力。 此外,虽然直觉的定义没有直接体现对审美的考虑,但审美和直觉显然是互有关联的[3]。由于直觉使用与交互过程中唤起的先前知识有关,那么审美判断作为人类感知过程的起点之一,恰是诱发直觉的重要因素。一个富于美感的界面,可以抵消用户使用过程中的不安感和隔膜感,并在潜意识上促使和鼓励用户做出交互行为并保证交互行为的持续性和统一性。上面的例子也表明,对于传统用户,设计精美、极富质感的模拟界面有效地抵消了传统用户对电脑软件的不适感,方便他们使用,并且大大降低了潜在的学习成本。而对于年轻用户,他们也可以在自己熟悉的控件界面中运作自如,拉近了老技术(传统流媒体)与新技术间的距离。简而言之,具备良好审美特性的直觉界面具有重要的价值与意义,体现了人机交互界面的发展趋势。

二、直觉界面与虚拟现实

自上世纪70年代起,虚拟现实(Virtual Reality)技术的发展异常迅猛,从专业研究到商业应用乃至家用娱乐都可见其身影。从根本上而言,虚拟现实恰是交互界面直觉化的总趋势的一个反映,因为人机交互演进的内在逻辑在于,呈现和交互手段总在致力于让用户以更直观、更自然、更简便的操控方式去获得更丰富、更多态、更实时的数据资源。

简而言之,虚拟现实提供了一个具有沉浸性(Immersion)、交互性(Interaction)和想象性(Imagination)的虚拟数字富媒体环境;用户不仅可以如同设身处地一般沉浸在它所提供的丰富多彩的虚拟环境中,更可以通过各种创新的途径来与环境中的元素进行互动。沉浸性、交互性和想象性,正是虚拟现实的三个基本特征[4]:一是沉浸性,通过各种技术手段让用户产生“身临其境”的感觉,包括视觉(利用人的立体视觉原理产生虚拟的三维纵深感)、听觉(利用立体声产生虚拟物体的方位感)、触觉(通过力觉设备使用户以为在与真实的物理实体打交道)等等;二是交互性,用户可以实时地与虚拟现实系统中的各种物体进行互动操作,用户的操作不再局限于传统的键盘、鼠标或游戏杆,还包括先进的数据手套、穿着式回馈服等等;三是想象性,给用户呈现的虚拟现实场景具有超越现实场景的特殊魅力,真正做到某种意义上的“心想事成”。

从虚拟现实的上述特征可以看出,它的基本出发点就是要超越传统人机交互界面的非人性化的一面,不仅要让用户尽量溶入整个交互场景中(沉浸性),而且要让用户以更直觉的方式去操作计算机(交互性):首先,虚拟现实技术能够有效地将计算机交互界面直觉化,提供与日常场景尽量类似的界面,完全基于人类日常的视觉直觉。其次,虚拟现实技术能够有效地消除人机交互之间的阻隔,让用户能够通过日常的动作和行为与计算机交互。

从上文的概念分析可知,判定直觉程度要看与使用者本身的已知经验,而且使用情境和审美等其他因素也要考虑在内。虚拟现实技术本身提供了多种多样的方法,但具体的构建和应用也要遵循这样的准则。下一节将提供几个应用案例来说明这些,并综合讨论如何真正地利用虚拟现实技术去设计直觉交互界面。

三、应用案例及讨论

以虚拟现实技术为基础的直觉交互界面被广泛应用于各种层次、各种领域的实践应用之中,其目标用户群体不仅包括非专业人士(普通民众),也包括熟悉计算机但希望寻求更直观的交互操作方式的专业人士。对于前者,他们需要能够尽量降低学习和记忆成本、兼或附带娱乐趣味性的人机界面。而对于后者,操控感良好的直觉界面可以大大提升生产率和成品率,并推动整个生产流程的优化。

日本大阪大学人机工程实验室的伊藤雄一等人研发了ActiveCube(动态积木)[5],这个作品将直觉界面引入儿童和青少年认知学习及娱乐之中,并辅以虚拟现实或增强现实设备以提升其应用价值。每个积木都是一个边长五厘米的塑料立方体;积木里面有一块可编程集成电路,控制着一系列可选的感应器或小型设备,包括超声感应器(感知外界物体的接近)、坐标感应器(三维坐标的相对角度)、触觉感应器(最多可装两个,每个可以感应八个方向的触觉)、红外感应器、灯和电动机等。因此,每个积木实际上已经是一个独立的玩具,可以感知环境并产生相应的动态行为。更绝妙的是,这些积木还能彼此连接,连接起来的各个部分之间也可以互相通信,构成整体行为。儿童使用者不需要额外教学就可以通过直觉使用它们。这样的直觉操作界面,很好地避免了其内部的复杂结构对使用者的影响,小学低年级学生就可以独立操作。

ActiveCube的一大特色在于可以在虚拟现实场景里使用。在这种情形中,红外感应器捕捉搭建好的积木形态,并将符合此形态的虚拟物品显示出来。应用了虚拟现实技术之后,规整的积木可以任意变换成为植物、动物、日常器具等,不仅视觉效果有可观的提升,还借此允许用户进行进一步的玩耍和操控。

ActiveCube还可以在虚拟现实场景里使用。在这种情形中,红外感应器捕捉搭建好的积木形态,并将符合此形态的虚拟物品显示出来。由于ActiveCube本身只是一个简单的立方体,其六面自由连接功能限制了表面的装饰性,最后的拼装效果不一定能吸引儿童用户的兴趣。而应用了虚拟现实技术之后,古板规整的积木可以任意变换成为植物、动物、日常器具等,不仅视觉效果有可观的提升,还借此允许用户进行进一步的玩耍和操控。在上面的例子中,外表相对简陋的十字架形积木摇身一变,可成为精美的飞机,并随着积木在实际环境中的位移而在现实设备上呈现相应的飞行轨迹。

另一个实例来自于工业设计领域。当下的设计师一般都有较高的学历和较专业的计算机技能,但进行三维产品建模的时候,复杂的软件界面依然是最重要的阻碍因素,更遑论键盘加鼠标的操控方式根本就与人手的自然行为大相径庭,严重干扰了设计师的思维和创作习惯。荷兰Delft大学工业设计工程团队在这方面进行了大量研究,提出了新的解决方案,其关键就在于引入直观的手势来与计算机交互,于虚拟现实环境中完成建模工作[6-7]。

一般而言,手势比面部表情和眼动更易于捕捉和识别,又比全身姿势更易于实施(特别是在狭小空间中),因此比较受直觉界面研究者的青睐[8]409-420。但手势也分为几个细类,不一定都适合用于人机交互。Hummels指出了三类手势,第一类是从计算机角度去定义的手势,因而非常便于计算机识别,但需要使用者去刻意学习和掌握,称不上直觉。第二类与之相反,指的是人类日常生活中的手势,优点是非常直观,但计算机程序需要特别的设计才能对其进行识别。综合了以上两种类别之优点而又尽量规避其不足的第三类手势称为描述性手势,原本自身也有着应用范围过窄的缺憾,但辅以虚拟现实技术,便可以成为有效的途径以联通设计师和计算机。 为了提高描述性手势的效果,研究人员特地设计了一个虚拟现实实验环境,见图3。在此环境中,普通设计师作为被试,不受拘束地使用他们惯常的手势进行设计创作,而这些以直觉为基础挥舞出来的手势被动作感应器记录下来,最后进行统计分析。通过这样的过程,研究人员能够采集到和分析出最适合虚拟现实环境的直觉手势。最后,对设计师而言非常直觉、对计算机而言又是相当便于识别的手势方案即可得到确定。设计师在此系统中,可以像往常操作日常物体(胶泥或板材等)一样与计算机辅助设计软件进行人机对话,不仅直觉高效,而且得益于虚拟现实环境,整个设计流程形同真实体验,大大提高了设计效率。

四、结论与展望

一直以来,“以人为本”都是人机交互设计领域的核心口号之一。但本文的分析指出,这绝不能是一句抽象的口号,而必须落实到具体的应用情境之中。另一方面,近年来关于“用户体验”的声音不绝于耳[9],它本质上也是“以人为本”的精神的一种体现,但这个提法也存在着过于含糊的缺点,导致了许多不同的理论都以它为逻辑基础。实际上,只要明确了“人”(也即“用户”)的特定性,问题也就解决了。既然不同的人和不同的用户其自身情况多有差异,同样着眼于“以人为本”或“增进用户体验”的产品,也就必须随着人/用户的不同而给出不同的解决方案,提供不同的交互界面,才能在交互过程中让使用者满意。

直觉概念得到了厘清,但这显然并不意味着直觉交互设计的种种问题也就有了答案。如何让某种交互界面更少地占用使用者的逻辑意识(也即做到“无意识地或下意识地被使用”),以及如何明确地定性定量分析特定用户的已往经验,并以之支持交互界面的设计,这依然是非常复杂的问题。幸而在各领域学者的努力下,此领域已有许多成功的理论或实践得以依循。在这方面最重要的一项就是关于直觉交互中的手势问题,它旨在解决人机交互场景中用什么有效的手势去操作计算机。由于手势不受传统输入设备的限制,它天然地与虚拟现实技术结合在一起[8]409-420。此外,针对现在方兴未艾的商业以及家用娱乐虚拟现实应用,直觉交互界面也是其中的研发热点。限于研究的深度及文章篇幅,本文遗憾地未能在这些方面展开论述,希望能在后继研究中逐步展开。

最后要强调的是,随着普适计算(ubiquitous computing)这个概念在强大的计算机硬件的支持下渐渐变为现实,设计和实现各种直觉交互界面已成为人机交互的核心任务。普适计算要求计算机设备可以感知周围环境的变化并执行相应的任务,在这一过程中如果交互界面做不到直觉易用,那么其计算机人性化的核心价值也就无从体现了。由此,直觉交互界面的理论与实践必将日益凸显其无比的重要性和关键性。

[参考文献]

[1] Blackler A,Popovic V,Mahar users' intuitive interaction with complex artefacts[J].Applied Ergonomics,2010,41(1):72-92.

[2] 波普尔.猜想与反驳:科学知识的增长[M].傅季重,纪树立,周昌忠,等,译.杭州:中国美术学院出版社,2003.

[3] Naumann A,Hurtienne J,Israel J H,et use of user interfaces: defining a vague concept[M]∥HARRIS Psychology and Cognitive :Springer-Verlag,2007:128-136.

[4] Alonso M A G,Gutierrez M A,Vexo F,et Into Virtual Reality[M].New York: Springer-Verlag New York Inc,2008.

[5] Watanabe R,Itoh Y,Kawai M,et of ActiveCube as an intuitive 3D computer interface[M]∥Butz A,Olivier Graphics. Berlin: Springer,2004:43-53.

[6] Hummels C,Overbeeke C J. Kinaesthesia in synaesthesia:the expressive power of gestures in design[C]∥Design and semantics of form and :Eindhoven University of Technology,2006:34-41.

[7] Hummels C,Smets G,Overbeeke Intuitive T-wo-handed Gestural Interface for Computer Supported Product Design: International Gesture Workshop[C].Bielefeld:Springer Verlag,1998.

[8] Nielsen M,Strring M,Moeslund T B,et procedure for developing intuitive and ergonomic gesture interfaces for HCI[M]∥Gamurri A,Volpe Communication in Human-Computer :Springer,2004:409-420.

[9] Garrett J elements of user experience[M].Berkeley,CA:New Riders,2002.

点击下页还有更多>>>关于虚拟现实的科技论文2500字

解读SwinTrack: A Simple and Strong Baseline for Transformer Tracking 论文地址:       目标跟踪是在一个视频的后续帧中找到在当前帧中定义的感兴趣物体的过程,依据跟踪的对象数目,分为单目标和多目标跟踪任务。其有着广泛的应用,如:视频监控,人机交互, 无人驾驶等。     目标跟踪的主流深度网络模型,按时间轴排列,分两个阶段,在2020年之前,视觉目标追踪的主干网络以CNN为主,用于目标跟踪的有SiamRCNN、Ocean等。2020年以后,基于tranformer主干网络逐渐发展起来,包括STARK、SwinTrack等。     谷歌于2017年提出的transformer网络,因其在NLP方向取得了重大进展,将Transformer架构引入CV领域尝试,思路可分为两种。     将transformer与常见的CNN架构结合,采用一种混合架构,即将注意力机制与卷积网络结合起来,试图利用两者各自的优势。     如图1为思路一框架,主要思想是先用CNN主干网络学习低分辨率特征图,再用transformer网络做特征学习,最后使用FFN(前馈神经网络)进行CV领域的任务预测。主流的网络结构有DETR[1],CoAtNet[2]。     DETR网络设计分为4步:      step1: 采用CNN主干来学习输入图像的2D表示,,,通过1*1的卷积将降为更小的维度,形成新的特征图;      step2: 将 z 0压缩为单个维度,生成 d*HW 个特征图,结合位置编码,输入到transformer的encoder中,每个encoder层包含multi-head自注意模块和FFN;      step3: encoder的输出,输入到decoder解码器中,与transformer的典型decoder不同之处:在每个解码层,采用并行解码N个输出(要求N设定大于图像中的目标种类数M);      step4: 最后解码器的输出,输入到FFN网络中,FFN由3层到ReLU激活函数的感知机组成,负责预测检测框及类别,每个FFN分支负责预测一种目标。      效果: 在COCO对象检测数据集上,精确度和速度性能与主流的Faster-RCNN效果相当。      优点: (1) 将目标检测看做是直接的集合预测问题,移除了一些手工设计的组件,如非极大值抑制(NMS,Non-Maximum Suppression),anchor生成; (2)适用于全景分割任务。 缺点: (1)小物体检测效果不佳; (2)训练时间长。 设计动机:将CNN和transformer各自的优点结合起来。 (1)CNN因卷积+池化,具备平移不变性(Translation Equivariance); (2)Self-attention具备全局感受野,以及注意力计算随输入动态变化。     如图3为CoAtNet网络结构,构建了一个5级(S0, S1, S2, S3和S4)的网络,空间分辨率从S0到S4逐渐降低。在每个阶段的开始,我们总是将空间大小减小2倍,增加通道数量。     S0是一个普通的2层卷积块,S1是具有squeeze-excitation (SE)的MBConv块,从S2到S4,依次是MBConv,Transformer块,Transformer块。     如图4为带squeeze-excitation (SE)的MBConv块结构,内部包括1x1升维 + Depthwise Convolution + SENet + 1x1降维 + add操作。      效果: 在图像分类任务上,CoAtNet达到 ImageNet top-1的精度;使用ImageNet-21K的13M图像进行预训练时, CoAtNet能达到的top-1准确率,与ViT-huge网络在JFT-300M数据集预训练的效果相当。CoAtNet在JFT-3B数据上进行预训练,可在ImageNet上获得 top-1的准确率。     使用transformer完全替代CNN架构,致力于探索一个完全的注意力模型,相信在不久的将来,transformer可以打败CNN,注意力机制会作为下一代视觉网络的基本组成部分。     如图5为思路二框架,主流的网络结构有ViT[3],网络结构如图6。     网络学习过程:将图像分割成固定大小的小块,对每个小块进行线性嵌入,添加位置嵌入,并将得到的矢量序列输入标准Transformer编码器进行特征学习,最后接MLP预测图像类别。      效果: 对大量数据进行预训练,并将其传输到多个中小型图像识别基准(ImageNet、CIFAR-100、VTAB等)时,与最先进的卷积网络相比,Vision Transformer(ViT)获得了优异的结果,而训练所需的计算资源却大大减少。 缺点: (1)在中小规模数据上直接训练,效果较差; (2)复杂度随着图像大小呈二次增长,不适合高分辨率图像输入;     对于思路一采用的混合架构,如DETR[1],CoAtNet[2]网络,组合效果超过CNN架构,但发展趋于饱和,效果提升空间有限。     对于思路二采用transformer梯度CNN结构,发展较为缓慢,首个视觉注意力模型ViT,以及它的很多后继者,在性能上都不如卷积神经网络,直到Swin-Transformer网络[4]的提出,在目标检测、实例分割等任务上性能远超CNN。     SwinTrack论文作者基于思路二,充分利用Swin-Transformer主干网的能力,结合目标跟踪Siamese经典框架,提出 SwinTrack框架,在LaSOT公开数据集上以的SUC刷新记录,同时仍以45帧/秒的速度运行。     如图7,SwinTrack的三种变体网络(红色虚线圆内)性能>Transformer结合CNN的混合架构>CNN为主干网络,验证了SwinTrack实现目标跟踪任务的先进性。    Swin-Transformer作为一种新的视觉transformer, 采用了基于注意的分层窗口架构解决了transformer结构从语言迁移到视觉的两大挑战性问题:1)视觉元素变化规模大;2)图像中像素分辨率高。网络设计创新之处,总结为两点: (1)引入非重叠窗口划分,将自注意力计算限制在局部窗口内,降低计算复杂度为图像大小的线性关系,并提出错位窗口方案,增加跨窗口连接。     Layer1到Layer1+1之间的跨窗口连接,通过对layer1层的切分线分别上下左右移动窗口长度/2的位置。 (2)网络由浅到深层,下一层的特征图通过逐渐合并上一层的邻域窗口来构建分层特征图,形成特征金子塔,用于密集预测任务(如像素级分割)。     如图10为Swin-Tansformer的网络结构图,整个Swin Transformer架构,和CNN架构非常相似,构建了4个stage,每个stage中都是类似的重复单元。和ViT类似,通过patch partition将输入图片HxWx3划分为不重合的patch集合,其中每个patch尺寸为4x4,那么每个patch的特征维度为4x4x3=48,patch块的数量为H/4 x W/4;stage1部分,先通过一个linear     embedding将输划分后的patch特征维度变成C,然后送入Swin Transformer Block;stage2-stage4操作相同,先通过一个patch merging,将输入按照2x2的相邻patches合并,这样子patch块的数量就变成了H/8 x W/8,特征维度就变成了4C。     每个Swin Transformer Block包括多个注意力层(偶数个),图11为两个连续的注意力层。其中W-MSA为基于窗口的多头注意力模块,SW-MSA为窗口错位划分,引入跨窗口连接。     SwinTrack目标跟踪框架设计参考全卷积Siamese跟踪网络[12]。      思路: 将搜索图像和目标图像用相同的CNN网络进行提取特征,然后再将目标图像的特征作为卷积核和整个搜索图片求卷积。最后生成的是一层的Feature Map,将置信度最高的地方这个区域看作是目标。     本文选择了一个挑战性的目标任务:视觉目标追踪,该任务至今仍有许多问题没有很好地解决,包括在遮挡或视线之外的重新定位,相似物体之间的区分。     SwinTrack论文作者基于思路二,充分利用Swin-Transformer主干网的能力,结合目标跟踪Siamese经典框架,提出 SwinTrack框架,在LaSOT公开数据集上以的SUC刷新记录,同时仍以45帧/秒的速度运行。     SwinTrack网络如图13所示。从左到右依次是:1)特征抽取:Swin-Transformer主干网络,2)特征融合:基于注意力的编码器-解码器,3)分类预测和位置回归层。     在目标跟踪过程中,首先主干网络利用共享的权值分别抽取target template 图像块和Search Region图像块特征;然后将target template和Search Region的特征串联融合,输入到编码网络,通过注意力机制逐层增强串联的特征符号;位置编码有助于区分不同来源和位置的特征符号;最后,解码网络生成search image的最终特征图,送入到分类预测和位置回归层,分两个分支,一个是前景-背景分类预测;另一个是目标位置回归预测。     特征融合通过构建基于注意力的编码-解码器实现,目的是实现target     template和Search Region特征的交互以进行跟踪。      特征融合- 编码器: 在主干网络分别输出template image和search image的图像块特征之后,特征表示为z, x,可沿着空间维度将两种图像的特征串联起来,生成联合的特征表示U,将联合特征表示U输入编码器中,对于编码器的每个网络块,MSA负责在U上计算自注意力,FFN对MSA生成的特征进行提炼,编码器输出的时候,对特征执行分解操作,恢复出template image和search image各自的特征表示。该特征融合方式可称为 基于连接的融合 ,公式表示如下:编码器中的网络块(注意力模块)结构如图14所示。其中MSA为多头自注意力机制,LN为层归一化,FFN为前馈神经网络。 特征融合- 解码器 由一个多头交叉注意模块和前馈网络组成,输入为编码器的输出,即template image的特征zL和search image的特征xL,输出通过计算xL和Concat(xL,zL)L的交叉注意获得最后的特征图。     解码器网络结构见图15,其中MCA为多头交叉注意力机制。 作者解释了为什么采用基于连接的融合方法:     为了融合处理多个分支的特征,直观的做法是分别对每个分支的特征做自注意力计算,完成特征提取,然后计算跨不同分支特征的Cross Attention,完成特征融合。作者称这种方法为 基于交叉注意力的融合。 考虑因transformer是Seq2seq结构,自然支持多模态信息的输入,通过串联操作,相比于Cross Attention,可以节省计算,通过权重共享,而不是对每个分支单独进行自注意力计算,可以减少模型参数量。 作者为什么不采用端到端的框架来预测目标跟踪任务?     原因是通过实验验证,当采用transformer-style编码器直接预测目标任务,需要更长的时间收敛,且跟踪性能较差。文章通过一些后处理的步骤来提升模型性能,如通过密集预测,可以向模型提供更丰富的监督信号,从而加快训练过程。此外,可以使用更多的领域知识来帮助提高跟踪性能,例如在响应图上应用Hanning penalty window来引入smooth movement assumption。此外,在我们的实验中发现,传统transformer decoder很难恢复2D位置信息。     作用是为了给模型提供词序信息,本文采用TUPE[8]提出的untied positional encoding,并将其推广到任意维度,以适用本文提出跟踪器的其他组件。对于单头的自注意力模块,自注意力函数表示:     其中 xi 为单头的自注意力模块输入, zi 为单头的自注意力模块输出。区别于untied positional encoding,Tranformer网络原来自带的位置编码策略,是在自注意模块中加入一个可学习的位置编码 p ,其中 x 为词嵌入,公式如下:上式包含四项:token-to-token, position-to-token, token-to-position,position-to-token.论文[9]指出公式中存在的问题,因词嵌入 x 和绝对位置嵌入 p 的信息为异构的,直接相加本身不合理,因此提出untied positional encoding,去除了公式(7)中红框里的两项,公式表示如下: 其中 pi 和 pj 分别是位置 i 和 j 处的位置嵌入, UQ 和 UK 是位置嵌入向量的可学习的投影矩阵, l 为网络层数。同时因 p 为绝对位置嵌入,论文[10]提出引入相对位置偏差作为互补,公式如下: 将位置编码扩展到多维空间。 方法是为每个维数分配一个位置嵌入矩阵,然后将不同维数的嵌入向量在相应的索引处相加,得到最终的嵌入向量。加上相对位置偏差,对于n维情况,我们有: 在特征融合阶段,为了区分不同来源的图像特征,分别对两种来源的绝对位置编码进行连接,并在相对位置偏差上增加一对索引,以区分query和key向量的不同来源。 其中g和h为encoder输出各自图像特征的query和key索引,1来自于template image,2来自于search image.     包含两个分支:分类预测和边框回归预测。每个分支是三层感知机,其中分类是对前景和背景的分类预测。分类训练目标采用IoU-aware classification score(IACS), 即为预测边框与其ground truth之间的IoU, IACS可以帮助模型从候选池中选择一个更精确的包围框。分类损失函数为varifocal loss,公式如下:     其中 p 为预测的IACS, q 为目标得分。对于正样本,即前景点,q为预测边框与地ground-truth边框之间的IoU。对于负样本,q = 0。于是,分类损失函数为:     其中,b为预测的边框,表示ground-truth边框。      解决正负样本不平衡: 通过修改 p γ ,可减少背景点(负样本的损失),而不影响前景点损失,同时用训练目标 q 对正样本进行加权,即IoU越大,对损失的贡献越大,促使模型关注高质量正样本。     对于边框回归预测,我们采用GIoU损失[11],取值范围[-1,1],对目标物体的scale不敏感。回归损失函数可以表示为:     采用概率 p 对GIoU损失进行加权,以强调高分类得分的样本。     SwinTrack在LaSOT上以的SUC刷新了记录,在45帧/秒的情况下,超过了STARK[6] 。此外,它在其他具有挑战性的LaSOText、TrackingNet和GOT-10k数据集上实现了 SUC、 SUC和 AO的最先进性能。 参考文献 [1]Zihang Dai, Hanxiao Liu,Quoc V Le, and Mingxing Tan. Coatnet: Marrying convolution and attention forall data sizes. arXiv, 2021. [2]NicolasCarion,FranciscoMassa,GabrielSynnaeve,Nicolas Usunier, AlexanderKirillov, and Sergey Zagoruyko. End-to- end object detection with ECCV, 2020. [3] Alexey Dosovitskiy, LucasBeyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, ThomasUnterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Syl- vainGelly, et al. An image is worth 16x16 words: Trans- formers for imagerecognition at scale. In ICLR, 2021. [4] Ze Liu, Yutong Lin, YueCao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swintransformer: Hierarchical vision transformer using shifted windows. In-ternational Conference on Computer Vision (ICCV), 2021. [5]XinChen,BinYan,JiawenZhu,DongWang,XiaoyunYang, and Huchuan Lu. Transformertracking. In CVPR, 2021. [6] Bin Yan, Houwen Peng,Jianlong Fu, Dong Wang, and Huchuan Lu. Learning spatio-temporal transformerfor visual tracking. In ICCV, 2021. [7] JaneBromley,JamesWBentz,LéonBottou,IsabelleGuyon, Yann LeCun, Cliff Moore, Eduard Sa ̈ckinger, andRoopak Shah. Signature verification using a “siamese” time delay neuralnetwork. International Journal of Pattern Recognition and ArtificialIntelligence, 7(04):669–688, 1993. [8] Guolin Ke, Di He, andTie-Yan Liu. Rethinking positional encoding in language pre-training. InInternational Confer- ence on Learning Representations, 2021. [9] Guolin Ke, Di He, andTie-Yan Liu. Rethinking positional encoding in language pre-training. InInternational Confer- ence on Learning Representations, 2021. [10] Peter Shaw, JakobUszkoreit, and Ashish Vaswani. Self- attention with relative positionrepresentations. arXiv, 2018. [11] Hamid Rezatofighi, NathanTsoi, JunYoung Gwak, Amir Sadeghian, Ian Reid, and Silvio Savarese. Generalizedin- tersection over union. 2019. [12] Bertinetto L , Valmadre J, Henriques J F , et al. Fully-Convolutional Siamese Networks for ObjectTracking. 2016.

相关百科
热门百科
首页
发表服务