TIL

👀Today I Learn

  • 게임을 추천하는 방식에는 여러 가지가 있지만, 그중에서도 콘텐츠 기반 필터링(Content-Based Filtering) 은 사용자가 좋아하는 게임의 특징을 분석하여 유사한 게임을 추천하는 방식
  • 이 글에서는 TF-IDF(Term Frequency-Inverse Document Frequency)와 코사인 유사도(Cosine Similarity) 를 활용하여 간단한 게임 추천 시스템을 구축해볼 예정🤔

  • 추천 시스템을 만들기 위해 사용할 주요 기술
    • TF-IDF 벡터화: 게임 설명(description) 데이터를 수치화하여 벡터로 변환
    • 코사인 유사도 계산: 변환된 벡터 간 유사도를 측정하여 추천


데이터 준비

  • Steam에서 실제로 내가 아는 게임의 데이터 일부를 예제로 사용하여 구현
  • pandas 라이브러리를 사용하여 데이터프레임을 만들고 데이터를 불러옴

      import pandas as pd
    
      def load_data():
          data = {
              'game_id': [1, 2, 3, 4, 5, 6, 7, 8],
              'title': ["Grand Theft Auto V Enhanced",
                      "Don't Starve Together",
                      "Stardew Valley",
                      "Sons Of The Forest",
                      "PUBG: BATTLEGROUNDS",
                      "Green Hell",
                      "Grounded",
                      "Detroit: Become Human"],
              'description': [
                  "Experience entertainment blockbusters Grand Theft Auto V and Grand Theft Auto Online...",
                  "Fight, Farm, Build and Explore Together in the standalone multiplayer expansion...",
                  "You've inherited your grandfather's old farm plot in Stardew Valley...",
                  "Sent to find a missing billionaire on a remote island, you find yourself in a cannibal-infested hellscape...",
                  "Play PUBG: BATTLEGROUNDS for free. Land on strategic locations, loot weapons and supplies...",
                  "Plunge into the open-world survival simulation set in the extreme conditions of the uncharted Amazon jungle...",
                  "The world is a vast, beautiful and dangerous place – especially when you have been shrunk to the size of an ant...",
                  "Detroit: Become Human puts the destiny of both mankind and androids in your hands..."
              ]
          }
          return pd.DataFrame(data)
    
      # 데이터 로드
      df = load_data()
      df.head()
    
  • 결과

      game_id title description
    0 1 Grand Theft Auto V Enhanced Experience entertainment blockbusters Grand Th…
    1 2 Don’t Starve Together Fight, Farm, Build and Explore Together in the…
    2 3 Stardew Valley You’ve inherited your grandfather’s old farm p…
    3 4 Sons Of The Forest Sent to find a missing billionaire on a remote…
    4 5 PUBG: BATTLEGROUNDS Play PUBG: BATTLEGROUNDS for free. Land on str…
    5 6 Green Hell Plunge into the open-world survival simulation…
    6 7 Grounded The world is a vast, beautiful and dangerous p…
    7 8 Detroit: Become Human Detroit: Become Human puts the destiny of both…


TF-IDF 벡터화 및 유사도 계산

  • TfidfVectorizer를 사용하여 게임의 설명을 벡터로 변환
  • cosine_similarity를 사용하여 게임 간의 유사도를 계산

      from sklearn.feature_extraction.text import TfidfVectorizer
      from sklearn.metrics.pairwise import cosine_similarity
    
      def build_recommendation_system(df):
          vectorizer = TfidfVectorizer(stop_words='english')
          tfidf_matrix = vectorizer.fit_transform(df['description'])
          cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
          return cosine_sim
    
      # 유사도 행렬 생성
      cosine_sim = build_recommendation_system(df)
    
      cosine_sim
    
  • 결과

      array([[1.        , 0.        , 0.        , 0.        , 0.        , 1.        , 0.        , 0.        ],
             [0.        , 1.        , 0.09775574, 0.        , 0.        , 2.        , 0.        , 0.        ],
             [0.        , 0.09775574, 1.        , 0.        , 0.        , 3.        , 0.        , 0.        ],
             [0.        , 0.        , 0.        , 1.        , 0.        , 4.        , 0.        , 0.        ],
             [0.        , 0.        , 0.        , 0.        , 1.        , 5.        , 0.        , 0.        ],
             [0.        , 0.        , 0.        , 0.        , 0.        , 6.        , 0.07277965, 0.        ],
             [0.        , 0.        , 0.        , 0.        , 0.        , 0.07277965, 1.        , 0.        ],
             [0.        , 0.        , 0.        , 0.        , 0.        , 7.        , 0.        , 1.        ]])
    


추천 시스템 구현

  • 특정 게임을 기준으로 유사도가 높은 게임을 추천하는 함수 작성

      def get_recommendations(title, df, cosine_sim):
          # 게임 제목을 인덱스로 변환
          indices = pd.Series(df.index, index=df['title']).drop_duplicates()
          idx = indices[title]
            
          # 해당 게임과의 유사도 점수 가져오기
          sim_scores = list(enumerate(cosine_sim[idx]))
          sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)[1:4]  # 상위 3개 추천
            
          # 추천 게임 반환
          game_indices = [i[0] for i in sim_scores]
          return df['title'].iloc[game_indices].tolist()
    


실행 및 테스트

  • 특정 게임을 입력하면, 유사한 게임을 추천받을 수 있음 : 예제로 Green Hell을 입력

      game_title = "Green Hell"
      recommendations = get_recommendations(game_title, df, cosine_sim)
      print(f"'{game_title}'과 유사한 게임 : {recommendations}")
    
  • 결과

      'Green Hell'과 유사한 게임 : ['Grounded', 'Grand Theft Auto V Enhanced', "Don't Starve Together"]
    

생각해보기🤔

  • Green Hell이 정글기반 게임이라서 집 앞 정원이 무대인 Grounded가 가장 높게 나올 것은 알고 있었는데, GTA가 높게 나온 건 의외..
    • 아마 제목과 설명을 기준으로 해서 그렇지 않을까..
    • 게임 설명뿐만 아니라, 게임의 태그를 활용하여 추천을 정교화할 필요가 있다.
  • 실제 우리 서비스는 pgvector를 사용하고 있으니 거기에서 데이터를 뽑아올 수 있게 설정하면 될 것 같다.



💡Today I Thought

오늘의 체크리스트

  • 알고리즘 코드카타 1문제
  • SQL 코드카타 1문제
  • Steam 로그인/회원가입 API 연동
  • TF-IDF와 코사인 유사도를 활용한 간단한 게임 추천 시스템 만들기
  • TIL 작성

회고

 오늘도 알찬 하루.. 생각보다 프론트엔드가 빨리 진행되고 있어서 마음이 한결 편해졌다. 내일 오전에 마이페이지 수정하면 일단 프론트 멈추고 ML을 구현할 수 있을것 같다.

댓글남기기