상단영역

본문영역

[4차산업 인공지능⑳] “AI와의 소통”… 단어를 숫자로, 숫자에서 단어로 바꾸는 자연어의 이해

기계가 단어를 0과 1의 수치로 표현하는 방법을 벡터화 또는 임베딩 이다
AI는 주로 자연어의 이해 및 생성을 적용
인공지능 활용은 텍스트 분석, 빅데이터와 함께 사회적ㆍ제도적 문제들을 해결 가능

  • Editor. 김문선 기자
  • 입력 2021.12.15 09:12
  • 수정 2022.04.05 09:56
  • 댓글 0
이 기사를 공유합니다
사진 : pixabay

자연어 처리를 위해서는 텍스트를 컴퓨터가 이해할 수 있도록 숫자로 바꾸는 작업이 필요하다. 사람은 문장에서 단어가 쓰인 의미를 문맥을 통해 구분할 수 있지만, 기계가 이해할 수 있도록 단어를 0과 1의 수치로 표현하는 방법을 벡터화(Vectorization) 또는 임베딩(Embedding)이라고 한다. 임베딩은 전체 단어들 간의 관계에 맞춰 해당 단어의 특성을 갖는 벡터로 바꿔주므로 단어들 사이의 유사도를 계산하는 기법이다. 이러한 유사도 계산을 통해 단어 간의 의미적ㆍ문법적 관계를 파악해낼 수 있다. 예를 들어, 아들-딸 사이의 관계와 소년-소녀 사이의 의미 차이가 임베딩에 함축되어 있으면 좋은 임베딩이라 할 수 있다.

NLP를 사용하면 컴퓨터 프로세스의 성능과 속도를 이용해 비정형 텍스트에 존재하는 엄청난 양의 언어와 피드백, 그리고 관점을 엿볼 수 있습니다. 2백만 명의 고객을 보유한 기업이 통상적인 대화 방식으로 고객 개개인과 효과적인 대화를 하는 것은 불가능한 일이다. 디지털 방식을 이용한 소통이 늘어나면서 우리는 이제 인공 지능을 이용하여 사람이 하는 것보다 훨씬 빠른 속도로 가장 중요한 콘텐츠를 식별할 수 있게 되었다. 이를 통해 올바른 정보를 적합한 사람에게 필요할 때 전달할 수 있다. 데이터를 처리하고 추세를 분석하는 속도는 기계가 더 빠르지만, 중요도를 해석하는 능력은 인간이 더 정확할 것이다.

단어와 숫자의 상호 변환은 훈련과 추론 시 머신 러닝 알고리즘에서는 일반 텍스트가 아닌 숫자 벡터가 입력 값이다. 즉, 컴퓨터가 비정형 텍스트를 처리하려면 먼저 해당 텍스트를 숫자 형태로 변환해야 한다. 숫자 형태로 처리되면 이는 다시 사람이 이해할 수 있는 텍스트 형식으로 변환한다. 이것이 바로 기계에게 사람의 언어를 이해하도록 훈련시키는 과정이다.

단어를 숫자로 변환하는 방법은 매우 복잡하다. 여기에는 구두점과 문자 및 숫자 값을 의미 있는 분석 단위로 분할하고, 중요한 특징과 중요하지 않은 규약을 판별하며, 대량의 비정형 텍스트에서 상관관계가 있는 부분을 인사이트와 연결한 후 이러한 인사이트를 인간이 이해할 수 있는 방식으로 표현하여 데이터 기반의 의사결정을 지원하는 작업 등이 있다.

알고리즘 사용 사례는 기계가 사람의 언어를 읽고 해석하는 과정에는 정교하면서도 복잡한 과학이 숨어 있다. 비즈니스 관점에서 NLP 기능은 5가지 일반 영역(사전 처리, 데이터 파싱, 트렌드 분석(검색 및 구조화), 정보 추출, 대화 시스템 개발(해석 및 생성))으로 나눌 수 있다.

사전 처리는 수집된 문서에 매우 큰 크기의 문서가 포함되어 있거나 다양한 유형의 문서가 포함되어 있는 경우, 데이터에서 노이즈를 제거하거나 문장이 아닌 데이터를 정규화하여 콘텐츠의 명확성을 높이며, 다운스트림 모델을 통해 보다 편리하게 구축, 유지 보수 및 정확하게 업무에 적용할 수 있다.

데이터 파싱은 대량의 데이터를 분석하기에 앞서, 데이터를 덩어리로 나누고 기계가 대규모로 분석해야 하는 인적 프레임워크를 제공하는 것이 중요하다. 파싱에서는 텍스트가 단어, 구, 구두점 및 기타 의미 요소로 구분됩니다. SAS에서는 파싱 작업에서 정규 표현, 지도 학습 모델, 사람이 구축한 규칙 및 사전 등 언어에 따라 다양한 접근 방식을 사용합니다. 이러한 조치는 대부분이 규칙에 기반하며 특정 언어에 언어 전문지식을 활용합니다. 또한 SAS는 지원 언어 전체를 대상으로 즉시 사용 가능한 파싱 기능을 제공한다.

트렌드 분석은 검색, NLP 및 비지도형 머신 러닝을 통해 문서 전반에 걸쳐 서로 관련이 있어 보이는 용어와 주제를 자동으로 추출함으로써 데이터에서 트렌드를 파악할 수 있습니다. 인간이 설계한 범주화 시스템 역시 데이터를 구조화하여 문서에서 트렌드와 패턴을 파악합니다.

정보 추출 및 해석은 정보 추출 시 비정형 또는 반정형 텍스트 데이터에서 정형 정보를 자동으로 추출하여 정형 텍스트 데이터를 새로 생성합니다. 여기에는 엔티티 인식, 관계 추출 및 대용어 해소 등의 작업이 포함한다. 요약 단계에서는 길이가 긴 텍스트의 의미를 해석하여 중요한 구성 요소를 식별하고 동일한 메시지를 짧은 버전으로 생성하거나, 혹은 관련 문서 세트를 통합 보고서로 압축합니다.

대화 시스템 개발은 인간과 컴퓨터의 상호 작용을 단순화하기 위해 설계된 NLP 기능을 일컬어 흔히 대화형 AI라고 한다. 대화형 AI는 주로 자연어의 이해 및 생성을 적용하는 데 중점을 둔다.

첫째 챗봇은 대화형 AI를 사용하는 환경을 일컬어 흔히 챗봇 또는 가상 비서라고 합니다. 컴퓨터는 이러한 챗봇을 통해 인간의 음성이나 입력된 자연어를 이해하고 지능적으로 대답할 수 있게 한다. 또한 챗봇은 간단한 키워드나 프롬프트에 대답하거나 특정 주제에 관해 복잡한 대화를 나누도록 프로그래밍될 수도 있습니다. 챗봇은 의도적 매칭을 이용한 정보 검색에서부터 심층적인 응답과 맞춤형 제안을 제공하는 머신 러닝 기능에 이르기까지 다양한 수준의 복잡성으로 설계됩니다.

둘째 채팅 지원 분석은 챗봇은 SAS Conversation Designer와 같은 제품을 통해 분석에 대화 기능을 결합할 수 있다. 예를 들어 해당 제품을 사용하면 챗봇이 대형 조직이나 공공 데이터 세트를 자동으로 쿼리 및 묘사하거나 관련 시각화 자료를 제공할 수 있게 됩니다. 예를 들어 사용자는 “이번 분기에 가장 성과가 좋았던 마케팅은 무엇인가?”라고 질문하며 그 결과를 말로요약 또는 분석해달라고 요청할 수 있다. 또한 챗봇은 답변 제공 후 추가 정보를 제공하거나 데이터 및 이전 쿼리의 패턴을 기반으로 관련 보고서를 제안할 수도 있습니다. 챗봇에게 해당 결과를 다른 이들과 공유하도록 요청할 수도 있으며 채팅 인터페이스 내에서 전문적인 분석을 수행하는 것도 가능하다.

셋째 음성-텍스트 변환은 음성-텍스트 변환 기능을 활용하면 음성을 인식하여 이를 텍스트 형식으로 변환할 수 있다. 음성이 텍스트 형식으로 변환되면 NLP를 사용하여 정보를 추출할 수 있으며 텍스트 내 패턴을 분석할 수도 있다. 이 프로세스는 특성 추출에서 시작되는데, 이 단계에서 기계는 오디오 파일을 짧은 프레임으로 나누어 분석을 수행한다. 다음으로, 어쿠스틱 모델을 이용하여 소리와 소리가 나타내는 글자 간 정렬을 예측한다. 어쿠스틱 모델에 의해 생성된 값은 언어 모델에 입력되며, NLP를 사용해 해당 값을 단어와 구로 변환한다.

결론적으로 최근 인공지능을 적용한 자연어 처리 기술이 빠르게 발전하고 있다. 하지만 자연어를 이해하고 실생활에 적용하는데 많은 난제들이 존재하고 있다. 자연어 처리를 할 수 있는 알고리즘 생성과 더 높은 수준의 모델링이나 알고리즘 개발에는 여전히 인간의 지식이 필요하며, 인공지능을 탑재한 자연어 처리 기술은 신문기사를 스스로 생성할 수는 있지만, 창조적이고 감명을 받는 문학 또는 컬럼 등은 여전히 사람이 쓰고 있다. 하지만 인공지능을 활용한 텍스트 분석은 빅데이터와 함께 사회적ㆍ제도적 문제들을 해결할 수 있는 가능성을 제공하고 있다. 또한 자연어 처리 기술은 다양한 분야에 적용될 수 있어 향후 우리들의 삶을 보다 풍요롭게 할 것이라 예상 된다.

저작권자 © 디지털비즈온 무단전재 및 재배포 금지

개의 댓글

0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400

내 댓글 모음

하단영역