[TIL] 내일배움캠프 110일차_[ML] TF-IDF와 코사인 유사도를 활용한 간단한 게임 추천 시스템 구현
👀Today I Learn
- 게임을 추천하는 방식에는 여러 가지가 있지만, 그중에서도 콘텐츠 기반 필터링(Content-Based Filtering) 은 사용자가 좋아하는 게임의 특징을 분석하여 유사한 게임을 추천하는 방식
-
이 글에서는 TF-IDF(Term Frequency-Inverse Document Frequency)와 코사인 유사도(Cosine Similarity) 를 활용하여 간단한 게임 추천 시스템을 구축해볼 예정🤔
- 추천 시스템을 만들기 위해 사용할 주요 기술
- TF-IDF 벡터화: 게임 설명(description) 데이터를 수치화하여 벡터로 변환
- 코사인 유사도 계산: 변환된 벡터 간 유사도를 측정하여 추천
데이터 준비
- Steam에서 실제로 내가 아는 게임의 데이터 일부를 예제로 사용하여 구현
-
pandas 라이브러리를 사용하여 데이터프레임을 만들고 데이터를 불러옴
import pandas as pd def load_data(): data = { 'game_id': [1, 2, 3, 4, 5, 6, 7, 8], 'title': ["Grand Theft Auto V Enhanced", "Don't Starve Together", "Stardew Valley", "Sons Of The Forest", "PUBG: BATTLEGROUNDS", "Green Hell", "Grounded", "Detroit: Become Human"], 'description': [ "Experience entertainment blockbusters Grand Theft Auto V and Grand Theft Auto Online...", "Fight, Farm, Build and Explore Together in the standalone multiplayer expansion...", "You've inherited your grandfather's old farm plot in Stardew Valley...", "Sent to find a missing billionaire on a remote island, you find yourself in a cannibal-infested hellscape...", "Play PUBG: BATTLEGROUNDS for free. Land on strategic locations, loot weapons and supplies...", "Plunge into the open-world survival simulation set in the extreme conditions of the uncharted Amazon jungle...", "The world is a vast, beautiful and dangerous place – especially when you have been shrunk to the size of an ant...", "Detroit: Become Human puts the destiny of both mankind and androids in your hands..." ] } return pd.DataFrame(data) # 데이터 로드 df = load_data() df.head()
-
결과
game_id title description 0 1 Grand Theft Auto V Enhanced Experience entertainment blockbusters Grand Th… 1 2 Don’t Starve Together Fight, Farm, Build and Explore Together in the… 2 3 Stardew Valley You’ve inherited your grandfather’s old farm p… 3 4 Sons Of The Forest Sent to find a missing billionaire on a remote… 4 5 PUBG: BATTLEGROUNDS Play PUBG: BATTLEGROUNDS for free. Land on str… 5 6 Green Hell Plunge into the open-world survival simulation… 6 7 Grounded The world is a vast, beautiful and dangerous p… 7 8 Detroit: Become Human Detroit: Become Human puts the destiny of both…
TF-IDF 벡터화 및 유사도 계산
TfidfVectorizer
를 사용하여 게임의 설명을 벡터로 변환-
cosine_similarity
를 사용하여 게임 간의 유사도를 계산from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import cosine_similarity def build_recommendation_system(df): vectorizer = TfidfVectorizer(stop_words='english') tfidf_matrix = vectorizer.fit_transform(df['description']) cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix) return cosine_sim # 유사도 행렬 생성 cosine_sim = build_recommendation_system(df) cosine_sim
-
결과
array([[1. , 0. , 0. , 0. , 0. , 1. , 0. , 0. ], [0. , 1. , 0.09775574, 0. , 0. , 2. , 0. , 0. ], [0. , 0.09775574, 1. , 0. , 0. , 3. , 0. , 0. ], [0. , 0. , 0. , 1. , 0. , 4. , 0. , 0. ], [0. , 0. , 0. , 0. , 1. , 5. , 0. , 0. ], [0. , 0. , 0. , 0. , 0. , 6. , 0.07277965, 0. ], [0. , 0. , 0. , 0. , 0. , 0.07277965, 1. , 0. ], [0. , 0. , 0. , 0. , 0. , 7. , 0. , 1. ]])
추천 시스템 구현
-
특정 게임을 기준으로 유사도가 높은 게임을 추천하는 함수 작성
def get_recommendations(title, df, cosine_sim): # 게임 제목을 인덱스로 변환 indices = pd.Series(df.index, index=df['title']).drop_duplicates() idx = indices[title] # 해당 게임과의 유사도 점수 가져오기 sim_scores = list(enumerate(cosine_sim[idx])) sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)[1:4] # 상위 3개 추천 # 추천 게임 반환 game_indices = [i[0] for i in sim_scores] return df['title'].iloc[game_indices].tolist()
실행 및 테스트
-
특정 게임을 입력하면, 유사한 게임을 추천받을 수 있음 : 예제로
Green Hell
을 입력game_title = "Green Hell" recommendations = get_recommendations(game_title, df, cosine_sim) print(f"'{game_title}'과 유사한 게임 : {recommendations}")
-
결과
'Green Hell'과 유사한 게임 : ['Grounded', 'Grand Theft Auto V Enhanced', "Don't Starve Together"]
생각해보기🤔
- Green Hell이 정글기반 게임이라서 집 앞 정원이 무대인 Grounded가 가장 높게 나올 것은 알고 있었는데, GTA가 높게 나온 건 의외..
- 아마 제목과 설명을 기준으로 해서 그렇지 않을까..
- 게임 설명뿐만 아니라, 게임의 태그를 활용하여 추천을 정교화할 필요가 있다.
- 실제 우리 서비스는 pgvector를 사용하고 있으니 거기에서 데이터를 뽑아올 수 있게 설정하면 될 것 같다.
💡Today I Thought
오늘의 체크리스트
- 알고리즘 코드카타 1문제
- SQL 코드카타 1문제
- Steam 로그인/회원가입 API 연동
- TF-IDF와 코사인 유사도를 활용한 간단한 게임 추천 시스템 만들기
- TIL 작성
회고
오늘도 알찬 하루.. 생각보다 프론트엔드가 빨리 진행되고 있어서 마음이 한결 편해졌다. 내일 오전에 마이페이지 수정하면 일단 프론트 멈추고 ML을 구현할 수 있을것 같다.
댓글남기기