물리학적 사고가 어떻게 AI를 가능하게 했나: 2024 노벨상

물리학적 사고가 어떻게 AI를 가능하게 했나: 2024 노벨상

인공지능(Artificial intelligence)은 이미지 생성이나, 그럴싸해 보이는 챗봇 그 이상이다. 또한 이는 물리학에 기반하며 노벨에 버금가는 노력의 산실이기도 하다.

대부분의 사람들은 AI라고 하면 ChatGPT와 같은 챗봇이나 DALL-E 같이 이미지 생성, 또는 단백질의 중첩구조를 예측하는 AlphaFold와 같은 과학용 어플리케이션을 떠올린다. 이런 사람들 중 인공지능 시스템(Artificial Intelligence System)의 핵심에 물리학이 있을 것으로 생각하는 사람은 극소수일 것이다. 하지만 사실 인공신경망(Artificial Neural Network)이란 개념은 물리학의 세 분야 즉, Biophysics, Statistical physics, Computational physics이 융합된 연구의 결과로 처음 결실을 맺게 되었다. 대략 1980년대 이루어진 이러한 주요 학문적 연구를 토대로 오늘날 인공지능과 머신러닝과 같은 활용이 일상 생활 속 더욱 깊이 자리를 잡아 갈 수 있게 되었다.

AI 기능의 핵심에는 불완전한 데이터이든 손상된 데이터이든 데이터 내에 존재하는 패턴을 인식하는 능력이 자리잡고 있다. 우리의 두뇌는 이를 자동적으로 수행하는 것으로 보이지만 AI는 심지어 일반적인 형태에서도 특별한 전문성을 가진 사람들 조차 하지 못하던 것을 훨씬 뛰어나게 해 낼 수 있다. 오늘날 AI는 천문학에서부터 의학, 입자물리학에 이르는 영역에서 인간을 능가하는 과학용 어플리케이션을 만들어 내고 있다. 그러나 그것들의 기반은 선구자적인 두 명의 물리학자로 거슬러 올라간다. John Hopfield는 실질적인 인공 신경망 모델을 개발했으며 Geoffrey Hinton은 Hopfied의 연구를 기반으로 새로운 네트워크 모델인 Boltsmann machine을 만들는데 이것이 오늘날의 현대적인 AI와 머신러닝 프로그램들로 이어졌다. 이들의 업적이 왜 2024년 노벨 물리학상을 수상했는지 그 이유가 바로 여기에 있다.

The 2024 Nobel Prize in physics was awarded to John Hopfield and Geoffrey Hinton for their pioneering advances to artificial neural networks, which have led, eventually to the explosion of generative AI applications we’re familiar with today. (Credit: Niklas Elmehed)

“인공지능”이 물리학과 연관되어 있다는 생각은 좀 거리감이 느껴질 수 있다. “Computer Science 업적이 왜 물리학 분야에서 노벨상을 수상했을까?”라고 스스로 반문해 볼 수 있다. 물론 표면적으로는 그 관련성이 뚜렷해 보이지 않기 때문에 좋은 질문일 수 있다. 하지만 물리학에서의 서로 다른 하위 분야

  • 생물 물리학(biophysics)
  • 통계 물리학(statistical physics)
  • 그리고, 계산 물리학(computational physics)

를 들여다 보면 궁극적으로 만족할 만한 해답이 드러난다. 특히, 머신러닝의 근간은 통계물리학을 기초로하며 인공지능 네트워크의 탄생으로 이어지게 한 생각은 생물 물리학으로부터 직접적으로 성장을 했다.

생물 물리학 또는 일반적 의미의 생물학 정수중 하나는 두뇌, 특히 인간의 두뇌가 어떻게 동작하는지 이해하는 것이었다. 아주 오랜 시간 동안 논쟁적으로 사람의 의식을 이해해 오면서 인간 두뇌에 대한 기초적 지식은 갖고 있다. 지방과, 소금, 신경세포, 신경교세포(glial cell)가 서로 뭉쳐진 상태의 우리 두뇌는 전기신호에 의존한다. 전기신호가 뇌를 지나갈 때 뉴런(neuron)과 시넵스(synapse)로 이루어진 망(네트워크)을 거쳐간다. 여러 뉴런이 함께 발화되거나 동시에 자극을 받으면 이들간의 연결은 점점 더 강해지거나 강화(reinforced)된다. 과거로 거슬러 1949년에 신경심리학자(neuropsychologist) Donald Hebb는 Hebbian learning이라는 이론을 제시했는데 이는 정확히 뉴런들간의 연결(connection)에 관한 시뮬레이션이었고 살아있는 두뇌에서 “학습”하는 과정으로 이어졌다.

The human brain is generally regarded as a marvel, with an estimated 86 billion neurons and some 7000 times as many connections between neurons in each adult brain. While many are projecting that there will be more connections and “neuron equivalents” to artificial intelligence-powered machines in the near future, the human brain is composed of a lot more than neurons (including enormous numbers of glial cells), and its complexity is not yet fully understood. (Credit: nobeastsofierce / Adobe Stock)

이렇게 해서, “인공” 두뇌를 만들거나 적어도 이와 비슷한 동작을 하는 네트워크를 구성함으로써 패턴 인식에 있어 학습능력이 있는 무언가를 만들수 있겠다라는 추론까지 이어졌다. 이렇게 나타난 아이디어가 인공신경망(artificial neural network)으로 알려지게 된다. 인공신경망은 실제 단순한 컴퓨터 시뮬레이션의 한 종류였지만 여기에는

  • 특정 값을 가지는 노드가 존재하며 이는 뉴런을 나타낸다.
  • 노드들 간에는 형성된 연결(connection)은 노드들이 동시에 자극을 받느냐 아니냐에 따라 이들 연결이 강화되거나 약해질 수 있다. 이 연결은 시냅스(synapses)를 나타낸다.

연결된 노드들을 지속적으로 자극을 준다면 이 연결(connection)은 강화될 것이다. 반면 다른 나머지 노드들이 자극되지 않는 상태에서 하나의 노드만 자극한다면(혹은 반대로) 이 연결은 약해질 것이다.

이제 오래전에 보고, 듣고, 경험한 것들을 기억해내는 과정을 떠올려 보자. 몇 달전에 텔레비젼 쑈인 “Dont’t Forget the Lyrics”의 한 에피소드를 보면서 Rick James의 노래 “Super Freak”이 연주될 때 글의 저자는 이 과정을 스스로 경험한 적이 있다. 그 노래는 자주 들었던 노래였고 모든 가사를 안다고 자신했지만 아래의 가사 다음에서 음악이 멈췄을 때 그는 당황스러웠다.

That girl is pretty wild now, the girl’s a super freak
the kind of girl ___ ___ ___ ___ ___ ___ ___

그는 그 노래에 있는 모든 가사를 다 알고 있었다. that girl is pretty kinky, the girl’s a super freakI really love to taste her, every time we meet 하지만 그렇다고 답이 떠오르지는 않았다. 섹소폰 솔로를 허밍해 보았지만 이것도 도움이 되지 않았다. 그런 다음 그 가사 절(verse) 전체를 노래로 불러 보았다. 이후 뇌가 돌아가기 시작했다. “that girl is pretty wild now, the girl’s a super freak, the kind of girl you read about, in new wave magazines“. 그 후 저자는 “OH MY GOD, I AM THE SMARTEST MAN ALIVE!“라고 되내었다고 한다.

여기서 무슨 일이 일어난 걸까? 여러분들이 체험 가능한 느낌일까? 뇌가 있더라도 불완전한 기억을 가진 사람에게 이는 우리의 기억이 어떻게 동작하는지 단편적으로 보여준다. 뇌 안에서 상호 연관된 부분들 즉, 기억이 만들어질 때 자극 받았던 부분과 그리고 과거 그 기억을 회상할 때 자극 받았던 부분에 자극을 주면 뇌 속에서 찾고자 했던 패턴이 “소환되도록 하는” 지점으로 자극을 발생시킬 수 있다. 이 위대한 아이디어(big idea)는 연관기억(associated memory)로 알려져 있다. 우리의 두뇌는 패턴을 저장할 뿐만 아니라 과거 발생했던 무엇을 “다시 기억해 낼 때“ 이 패턴을 다시 만들어 내기 위해 탐색과정을 거치기도 한다. 뇌 속에서 뉴런을 개별적으로 관찰해 보는 것만으로는 이것이 명확하지 않을 것이다. 왜냐하면 이는 뇌 속의 여러 영역이 동시에 작동해야 하는 새로운 형태의 작용이기 때문이다.

이 위대한 아이디어는 과거 분자 생물학 분야에서 연구를 했고 이후 신경망(neural network)에 관심을 갖게된 물리학자 John Hopfield에게 영감을 주었다. 그는 동시에 발화하는 뉴런들의 집단적 행태를 고려하면서 집단행동을 보이는 다른 유사한 물리적 시스템의 유사성을 활용했다. 유체의 흐름에서 형성되는 소용돌이와 자성을 띄는 시스템(magnetized system)에서 원자와 분자들이 향하는 방향을 예로 들 수 있다. Hopfield는 이런 뉴런들의 집단적인 동작은 연산을 하거나 학습하는 능력을 가질 것이라고 상상해 보았다. 그런 다음 인공신경망을 통해 시연해 보임으로써 이를 증명하고자 했다.

Natural neurons are connected to one another across various synapses, and as synaptic connections are strengthened, neurons become more likely to fire together: something that occurs when the brain learns. An artificial neural network models these neurons as nodes that are encoded with a specific value, and the connectedness of the nodes can strengthen or weaken dependent on whether they take on identical or different values from one another. (Credit: Johan Jarnestad/Royal Swedish Academy of Sciences)

Hopfield는 단순한 컴퓨터 프로그램 형태의 인공신경망을 만드는 것부터 시작했는데 여기에는 많은 수의 노드가 존재하고 이들 각 노드는 0 또는 1 의 값만 가지도록 했다. 자성을 띄는 많은 물질에서처럼 인접한 노드(또는 원자/분자)들의 스핀 값은 목적으로 하는 노드(즉, 원자/분자)의 값에 영향을 미칠 수 있다. 이런 신경망에서 노드들의 값은 부분적으로 연결된 노드들의 값에 의해 결정되어 진다. 자성을 띈 물질은 에너지가 평형을 이루거나 최소화되는 조건으로 향하는 경향이 있는 것처럼 Hopfield는 사전 프로그램된 일련의 패턴을 따라 모든 노드들의 에너지가 최소화 되도록 인공 신경망을 프로그래밍 했다. 이는 “학습”을 위한 데이터셋으로 생각할 수 있다.

생각 가능한 또다른 방법으로 가로 14칸, 세로 19칸으로 된 총 266 칸의 격자가 있다고 상상해보자. 시작 시점에 어떤 입력 패턴이 주어지며 이 패턴 다른 어떠한 것과도 비슷하지 않다고 하자. 그렇지만 참조 가능한 일련의 패턴들이 있다면(저장되어 있던 패턴이라고 하자) 이들 참조패턴들 중 입력패턴이 어떤 패턴과 가장 유사한 지 확인하기 위해 일일이 매칭시켜 볼 수 있을 것이다. 이 과정을 반복적으로 진행하면서 매 단계마다 참조패턴들과 좀 더 유사하게 매칭되도록 입력패턴을 정제시켜 나간다. 심지어 입력패턴에 노이즈가 끼거나 불완전하더라도 또는 일부가 누락된 경우라도 이 과정을 거치고 나면 저장된 패턴 중 입력패턴과 가장 잘 매칭는 정확한 패턴을 복원해 낼 수 있다.

The idea of Hopfield’s model is that there exists a landscape of possible outputs: solutions that can be arrived at, for any set of inputs. Even in the case of noisy, corrupted, or otherwise imperfect inputs, the most preferred “valley” will correspond to one of the saved patterns that is the best match, according to the algorithm and the training data, for the input pattern. (Credit: Johan Jarnestad/Royal Swedish Academy of Sciences)

어떻게 보면 초보적일지 모르지만 Hopfield가 제작한 네트워크를 기반으로 수행된 이 패턴매칭은 불완전 혹은 누락된 데이터와 “실제” 참조 데이터 셋을 비교해 매칭 패턴을 찾는데 길을 깔아주었다. 아직도 객체인식과 컴퓨터 비전을 포함한 이미지 분석 분야에 이와 같은 응용 어플리케이션이 존재한다. 여전히 Hopfield의 원본 모델은 “저장된 패턴”에서 정답으로 보이는 개별 데이터셋이 무엇이든 근본적으로 이 영역에서 벗어나지 않는다. 단지 패턴을 매칭하는 형태이고 생성형에 근간을 둔 것은 아니다.

이 분야가 올 해 노벨 물리학상의 또다른 수상자인 Geoffrey Hinton의 연구영역이다. 특정한 개별 패턴에 촛점을 맞추기 보다 참조 데이터셋에 실제로 존재하지 않던 패턴을 포함하여 패턴의 통계분포를 이용하는 방식으로 일반화 시켰다. (예를 들면 참조 데이터셋에 알파벳 26개 글자만 있을 경우 통계분포에서는 æ와 같이 여러 글자로 이루어진 묶음 문자도 기대할 수 있다.) 문자열에서 점찍힌 “t”라든가 엇갈린 ”i”와 같이 이전 데이터에서 보지 못했던 방식으로 다양한 해결책 출현할 가능성을 기대할 수 있다.

Hinton의 첫 번째 큰 진전은 초기단계의 Hopfield 모델을 진정한 생성형 모델(Boltzman machine)로 최초 대체했다는 것이다.

In a Hopfield network, all nodes are connected to each other, and connections between nodes are weighted. In a Boltzmann machine, there are layers of visible nodes (inputs and outputs), with a network of hidden nodes between them. In a restricted Boltzmann machine, there are no connections between nodes of the same layer, only between nodes of neighboring, different layers. (Credit: Johan Jarnestad/Royal Swedish Academy of Sciences)

Boltzman machine에서는 초기 데이터를 나타내는 입력 또는 입력 집합을 전달하고, 마지막에는 컴퓨터 프로그램이 제시하는 결과 또는 결과 집합을 전달 받는다. 그러나 입력과 출력 사이에 여러 개의 Hidden 레이어가 존재할 수 있다. 여기서 hidden 노드는 입력과 출력을 분리시키며 진행 중간 과정에서의 Hidden 노드들은 참조 데이터셋에 있는 것도 아니고 사람이나 프로그램에 의해 입력된 것도 아니다. 이런 Hidden 레이어는 분석과정에서 훨씬 더 일반화된 확률분포가 포함될 수 있도록 하며, 이는 이제까지 직관적인 알고리즘이 발견하지 못했던 예상치 못한 결과를 낳게 할 수도 있다.

컴퓨팅 자원이 비효율적으로 활용되기 때문에 Boltzman machine과 같은 유형의 컴퓨터가 비록 응용 어플리케이션에 제한적이라 하더라도 Hinton과 다른 동료들이 더 발전된 모델로 만드는 계기가 되었다. 이는

  • 입력값들과 hidden layer를 연결시키고
  • 최종 결과값으로 연결되기 전에 hidden layer는 또다른 hidden layer와 연결된다.
  • 그런 다음, back propagation(역전달)을 발동시키고 이를 통해 hidden layer들은 서로 상호작용을 할 수 있도록 하며
  • 최종적으로 실질적인 최적의 결과값이 되도록 융합한다.

이러한 진전은 다음과 같은 심층적인 원인으로 인해 엄청 중요해 졌다. Hidden layer로 이루어진 망(network)은 과거 hidden layer가 없이는 근본적으로 해결할 수 없었던 일을 수행 가능하도록 학습할 수 있음을 증명해 보였다.

This example of a feedward network (without backpropagation) is an example of a restricted Boltzmann machine: where there is at least one hidden layer between the input layer and the output layer, and where nodes are only connected between different layers: not between nodes of the same layer. (Credit: The Nobel Committee for Physics, 2024)

입력과 hidden(input-hidden), hidden과 출력(hidden-output)과 같이 서로 다른 유형의 노드들 끼리만 연결되도록 하고 input-input, output-output, 또는 hidden-hidden과 같이 동일한 layer에서의 동일한 타입의 노드들끼리는 서로 연결하지 못하도록 제약함으로써 연산 속도가 개선되고 효율성이 엄청 좋아졌다. Hidden 노드들의 중요성과 그 기능은 이제 부인할 수 없게 되었다.

이 새로운 기술을 이용한 성공적 어플리케이션들이 매우 민첩하게 만들어지기 시작했다. 은행들은 이제 수표에 수기로 작성한 숫자(0, 1, 2, 3, 4, 5, 6, 7, 8, 9)를 사람의 개입없이 자동으로 인식할 수 있게 되었다. 언어를 떠나 이미지에 포함된 패턴, 심지어 의료 데이터에 포함된 패턴들도 인식할 수 있게 되었다. 예상치 못했던 부분 중 초기에 진전을 이룬 것은 이미지의 “모서리”에 위치한 특징을 파악하는 능력이었다. 요즘은 거의 실시간에 가깝우면서 대부분의 언어를 동시 통역하는 기술은 이제 실질적으로 당연한 기술로 여기지만 거슬러 올라가면 이는 Hopfield와 Hinton에 빚을 지고 있는 셈이다.

이후 동등 수준의 Deep하고 밀도가 높은(Dense) 인공신경망(deep and dense artificial neural network)의 성능을 내면서도 오히려 컴퓨팅 시간을 훨씬 더 단축시켜주는 제한적인 Boltsman machine 기반의 학습방법들이 제시되었다.

A screenshot from a query about integers directed to iask.ai, along with its woefully incorrect response. The correct answer is -5, which requires inputting several additional prompts to coax the AI into the correct response. (Credit: E. Siegel/iask.ai)

물론, 이제 인공 신경망 응용프로그램은 널리 확산되고 흔해 보인다. 의심스러운 진실성에 대해 자신감 있는 선언으로 인터넷을 가득 채우는 챗봇과 텍스트 생성기, 문제를 해결하지 못하면서 시간만 낭비하는 사전 프로그래밍된(pre-programmed) 대화형 “도우미”, 콘텐츠를 집계하지만 원하는 작업에 종종 실패하는 AI “추천” 요약 등을 들 수 있다.

하지만 긍정적인 영향을 미치는 응용 어플리케이션들은 실질적으로 무수히 많다. 인공신경망은 다음과 같은 일에 뛰어난 성능을 발휘한다.

  • 가장 복잡한 수학 함수에 대해서도 매우 훌륭한 함수근사자가 됨
  • 정확하게 시뮬레이션하기에는 엄두를 내지 못할 정도로 계산 집약적인 다체 양자 시스템(many-body quantum systems)에 대한 접근
  • 원자간, 분자간 역학 모델링에 뛰어나며 특정 유형의 물질과 이들이 가져야 하는 특성에 대해 새로운 예측을 가능하게 함
  • 복잡한 물리 시스템으로 확장성이 있음

무수히 많은 물리 시스템 응용 어플리케이션이 있으며 여기에는 물리학에 기반한 기후모델과 충돌 가속기 내에서 특별한 입자(힉스소립자-Higgs boson-를 포함)를 가리키는 입자궤적 탐색, 남극에 위치한 IceCube 탐지기로부터 중성미자를 이용한 은하수 매핑(지도제작), 사람에 기반한 탐색 알고리즘으로는 할 수 없었던 태양계 너머 잠재 행성의 이동을 확인, 심지어 Event Horizon 망원경에서 블랙홀의 사건의 지평선(event horizon) 첫 이미지를 생성하기 위해 사용될 데이터를 처리하는 어플리케이션등이 있다.

Size comparison of the two black holes imaged by the Event Horizon Telescope (EHT) Collaboration: M87*, at the heart of the galaxy Messier 87, and Sagittarius A* (Sgr A*), at the center of the Milky Way. Although Messier 87’s black hole is easier to image because of the slow time variation, the one around the center of the Milky Way is the largest as viewed from Earth. Artificial neural networks were vital to analyzing and processing the data used to recover these images. (Credit: EHT collaboration (Acknowledgment: Lia Medeiros, xkcd))

아이러니하게도 인류가 인공신경망에 관심을 갖게한 과학인 생물물리학으로 다시 되돌아가는 것처럼 보이지만 아마도 생물학적이고 의학적인 응용 어플리케이션이 가장 심층적인 영역일 것이다. AlphaFold는 아미노산 서열만을 유일하게 활용하지만 3차원과 4차원(tertiary, quaternary) 구조를 포함하여 완전하게 접힌 단백질 구조를 예측 가능한 형태로 계산해 낼 수 있다. 인공신경망을 활용한 머신러닝은 유방 X선 조영 이미지를 활용하여 유방암 조기발견을 획기적으로 개선시켜준다. 그리고 현재 사용되는 도구 중 MRI로 신체 어떤 부위를 촬영하더라도 환자들에게서 발생되는 의식적, 무의식적 동작을 바로잡아 줄 수 있는 최고의 도구이다.

아마도 “이건 컴퓨터 과학이지 물리학이 아니야”라며 게이트 키핑을 하거나 반대 의견을 내는 물리학자가 많이 있을 것이다. 하지만 아래의 분야에서도 똑같은 얘기가 과거 있었다는 것을 떠올려 것이 중요하다.

  • 화학물리학(chemical physics)
  • 생물물리학(biological physics – biophysics)
  • 계산물리학(computational physics)
  • 통계물리학(statistical physics)
  • 이 밖의 모든 종류의 물리학 하위분야

사람들은 원자시계와 이와 같은 맥락에서의 시간기록(timekeeping)에 노벨상이 수여된 것을 조롱하곤 했다. 이와 같이 생각하는 사람들에게 향한 메시지는 다음과 같다. 단지 이 분야가 관심을 받지 못하는 물리학 한 분야의 결과물이라고 해서 물리학이 아니라는 것을 의미하지 않는다. 그리고 분명 노벨상의 가치가 없다는 것도 의미하지는 않는다. 우리가 일반적으로 공동체의 선 또는 악에 AI를 사용하든, 머신러닝을 사용하든, 그리고 인공신경망을 이용하든 이는 주요 쟁점이 아니다. 요지는 이 새롭고 강력한 기술을 이제 더욱 흔한 형태로 접하게될 것이라는 것이고 물리학적인 인사이트가 이 기술의 도입과 활용 가능성에서 큰 진전을 이루었다는 것이다. 다이너마이트와 고성능 폭약을 발명한 노벨 자신조차도 자신의 발명품이 이후에 어떻게 활용될 지를 제어할 수 없었던 것처럼 지금부터 어떻게 나아 가느냐는 노벨 위원회의 권한 밖에 있다. 모든 인류를 위한 이후 단계는 우리 모두에게 달려있다.

원문: How ideas from physics drive AI: the 2024 Nobel Prize

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다