网易人工智能笔试题

99ANYc3cd6 人工智能 2026-02-12 1

笔试概览

网易的AI笔试通常分为以下几个部分，不同岗位（如算法工程师、数据科学家、机器学习工程师等）的侧重点会有所不同,但核心内容大同小异。

（图片来源网络，侵删）

编程题：占比最高，通常2-3道，限时60-90分钟,是筛选候选人的关键。
机器学习/深度学习理论题：选择题、填空题或简答题,考察对核心概念的理解。
数据结构与算法题：选择题,考察基础算法知识。
开放性问题/项目题：简答题，考察你的项目经验、技术视野和解决问题的思路。

各模块详细解析与例题

编程题

这是网易笔试的重中之重，难度通常在“中等”到“困难”之间，题目类型非常多样,常见于：

机器学习模型实现：要求从零实现一个经典模型的核心算法。
数据预处理与特征工程：处理真实世界中的“脏”数据。
推荐系统相关算法：如协同过滤、矩阵分解等。
自然语言处理相关算法：如文本分类、关键词提取、编辑距离等。
数据挖掘与统计分析：如关联规则、异常检测等。

考察重点：

代码质量：逻辑清晰、规范、高效。
算法思想：能否选择最优的算法和数据结构。
边界条件处理：代码的鲁棒性。
时间/空间复杂度：对算法效率有清晰的认识。

典型例题 1：机器学习模型实现 请从零开始实现一个 逻辑回归** 模型,你需要实现以下功能：

__init__(self, learning_rate=0.01, n_iters=1000)：初始化学习率和迭代次数。
fit(self, X, y)：使用 梯度下降 算法训练模型。
predict(self, X)：对新的数据集进行预测,返回0或1的类别标签。
_sigmoid(self, z)：实现Sigmoid激活函数。

考察点：

（图片来源网络，侵删）

对逻辑回归原理的深刻理解。
能够手动实现梯度下降，包括计算梯度、更新权重。
理解Sigmoid函数的作用。
向量化编程能力,避免使用低效的循环。

参考思路：

import numpy as np
class MyLogisticRegression:
    def __init__(self, learning_rate=0.01, n_iters=1000):
        self.lr = learning_rate
        self.n_iters = n_iters
        self.weights = None
        self.bias = None
    def _sigmoid(self, z):
        return 1 / (1 + np.exp(-z))
    def fit(self, X, y):
        n_samples, n_features = X.shape
        # 初始化参数
        self.weights = np.zeros(n_features)
        self.bias = 0
        # 梯度下降
        for _ in range(self.n_iters):
            # 线性模型
            linear_model = np.dot(X, self.weights) + self.bias
            # 应用Sigmoid
            y_predicted = self._sigmoid(linear_model)
            # 计算梯度
            dw = (1 / n_samples) * np.dot(X.T, (y_predicted - y))
            db = (1 / n_samples) * np.sum(y_predicted - y)
            # 更新参数
            self.weights -= self.lr * dw
            self.bias -= self.lr * db
    def predict(self, X):
        linear_model = np.dot(X, self.weights) + self.bias
        y_predicted = self._sigmoid(linear_model)
        # 将概率转换为类别标签 (0 or 1)
        class_pred = [1 if y > 0.5 else 0 for y in y_predicted]
        return np.array(class_pred)
# 注意：这是一个基础实现，实际应用中还需要加入正则化、更优的优化器（如SGD）等。

典型例题 2：推荐系统算法 实现一个基于 用户-物品交互矩阵的协同过滤** 算法，给定一个用户评分矩阵 R (user-item matrix)，R[i][j] 表示用户 i 对物品 j 的评分（0表示未评分）,你的任务是：

计算用户之间的相似度（使用 余弦相似度）。
为目标用户 user_id 预测他对一个未评分物品 item_id 的评分。

考察点：

对协同过滤原理的理解。
矩阵运算能力。
处理稀疏数据的能力。

参考思路：

import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
def predict_rating(user_item_matrix, user_id, item_id):
    """
    预测 user_id 对 item_id 的评分
    """
    # 1. 计算用户相似度矩阵
    # 忽略未评分的项，只计算共同评分过的用户
    # 这里简化处理，直接使用sklearn的cosine_similarity
    # 实际中可能需要更复杂的处理，如调整余弦相似度
    user_similarity = cosine_similarity(user_item_matrix)
    # 2. 找到与目标用户最相似的K个用户
    target_user_ratings = user_item_matrix[user_id]
    # 找到评分过目标物品的其他用户
    users_who_rated_item = np.where(user_item_matrix[:, item_id] > 0)[0]
    if len(users_who_rated_item) == 0:
        return 0 # 没有用户评分过该物品，无法预测
    # 3. 加权平均预测
    weighted_sum = 0
    similarity_sum = 0
    for other_user in users_who_rated_item:
        if other_user == user_id:
            continue
        # 获取相似度和评分
        sim = user_similarity[user_id][other_user]
        other_user_rating = user_item_matrix[other_user][item_id]
        weighted_sum += sim * other_user_rating
        similarity_sum += abs(sim)
    if similarity_sum == 0:
        return 0 # 没有相似的用户
    predicted_rating = weighted_sum / similarity_sum
    return predicted_rating
# 示例矩阵
R = np.array([
    [5, 3, 0, 1],
    [4, 0, 0, 1],
    [1, 1, 0, 5],
    [1, 0, 0, 4],
    [0, 1, 5, 4],
])
# 预测用户0对物品2的评分
prediction = predict_rating(R, user_id=0, item_id=2)
print(f"Predicted rating for user 0 on item 2: {prediction:.2f}")

机器学习/深度学习理论题

范围广,覆盖了从基础概念到前沿技术的方方面面。

考察重点：

核心概念：偏差-方差权衡、过拟合与欠拟合、交叉验证、评估指标（准确率、精确率、召回率、F1、AUC、RMSE等）。
经典模型：
- 监督学习：线性回归、逻辑回归、SVM、决策树、随机森林、GBDT (XGBoost, LightGBM)。
- 无监督学习：K-Means、PCA、Apriori。
- NLP：Word2Vec, GloVe, BERT等预训练模型的原理。
- CV：CNN基础、迁移学习、目标检测（Faster R-CNN）、图像分割。
深度学习框架：TensorFlow/PyTorch的基本使用和原理。
优化算法：SGD, Adam, RMSprop等优化器的区别和原理。

典型例题：

简答题：请解释什么是梯度消失/梯度爆炸问题,并列举至少两种在深度学习中解决该问题的方法。
- 参考答案：
  - 问题：在深层网络中，梯度通过连乘的方式反向传播，如果每层的梯度小于1，多层连乘后会趋近于0（消失）；如果大于1，则会趋近于无穷（爆炸）,导致模型无法有效训练。
  - 解决方法：
    1. 使用ReLU等非线性激活函数：其导数在正区间为1,能有效缓解梯度消失。
    2. Batch Normalization (BN)：通过对每一层的输入进行归一化，使得数据分布更稳定,加速训练并缓解梯度问题。
    3. LSTM/GRU门控循环单元：通过引入“门”机制（如遗忘门、输入门）来控制信息流,有效解决了RNN中的梯度消失问题。
    4. 合理的权重初始化：如Xavier初始化、He初始化,可以确保信号在每一层传播时保持合适的尺度。
选择题：在处理类别不平衡的分类问题时，以下哪种方法通常最有效？ A. 简单地增加少数类的样本量 B. 使用准确率作为评估指标 C. 调整类别权重，使模型更关注少数类 D. 减少多数类的样本量
- 参考答案：C，A和D会丢失信息，B在类别不平衡时具有误导性，C通过在损失函数中为少数类赋予更高的权重,直接引导模型学习对少数类更重要的特征。

数据结构与算法题

这部分相对基础，但必不可少,主要考察计算机科学基本功。

考察重点：

基础数据结构：数组、链表、栈、队列、哈希表、树（二叉树、平衡树）、图。
基础算法：
- 排序：快排、归并、堆排。
- 查找：二分查找。
- 图算法：DFS、BFS、最短路径（Dijkstra, Floyd）。
- 动态规划：经典问题（背包、最长公共子序列等）。
- 双指针、滑动窗口。

典型例题：给定一个整数数组 nums 和一个目标值 target，请你在该数组中找出和为目标值的那两个整数,并返回它们的数组下标。

考察点：哈希表的应用,时间复杂度优化。
参考答案：使用哈希表（字典）将数值和索引对应起来，将O(n²)的暴力解法优化到O(n)。

def twoSum(nums, target):
    num_map = {}
    for i, num in enumerate(nums):
        complement = target - num
        if complement in num_map:
            return [num_map[complement], i]
        num_map[num] = i
    return [] # 如果没有找到

开放性问题/项目题

这部分是展现你个人能力和潜力的最佳机会。

考察重点：

项目经验：你是否真的做过项目？对项目细节的理解程度。
技术深度：你是否理解项目中使用的技术的底层原理？
解决问题的能力：面对项目中的困难,你是如何分析和解决的？
技术视野：你是否了解行业前沿？对新技术有热情吗？

典型例题：

简答题：请详细介绍一个你参与过的AI项目，包括项目背景、你的角色、使用的技术、遇到的挑战以及最终的成果和反思。
- 回答策略：
  - STAR法则：Situation (背景), Task (任务), Action (行动), Result (结果)。
  - 突出亮点：不要只罗列技术，要突出你个人的贡献和思考，你如何尝试了多种模型并最终选择了最优的？你如何处理了数据稀疏性问题？你如何通过调参将线上AUC提升了2%？
  - 展现反思：项目结束后，你有什么可以改进的地方？如果现在再做一次,你会怎么做？
开放题：网易游戏推荐系统需要为不同用户推荐合适的游戏，请谈谈你会如何设计这个推荐系统？需要考虑哪些方面？
- 回答策略：
  - 数据层面：需要收集哪些数据？（用户画像：年龄、性别、地域；游戏属性：类型、标签、热度；用户行为：点击、下载、时长、付费）。
  - 算法层面：
    - 召回：如何从海量游戏中筛选出几百个候选集？（协同过滤、基于内容、向量检索、图模型）。
    - 排序：如何对候选集进行精准排序？（LR, GBDT, 深度学习模型如Wide&Deep, DeepFM）。
    - 重排：考虑多样性、新颖性、公平性等。
  - 系统层面：如何保证系统的低延迟和高可用？（实时特征更新、模型服务化、A/B测试框架）。
  - 评估与迭代：离线评估指标（AUC, GAUC）和在线业务指标（CTR, 转化率, 收入），如何通过A/B测试验证新策略的效果？

备考建议

巩固基础，不留死角：
- 机器学习：周志华的《机器学习》（“西瓜书”）和李航的《统计学习方法》是必读经典，务必吃透核心算法的原理、公式和优缺点。
- 深度学习：花书《Deep Learning》和吴恩达的深度学习课程是很好的入门和进阶资源。
- 算法：刷LeetCode是最高效的方式，至少刷完Hot 100和剑指Offer，重点掌握数组、字符串、链表、二叉树、动态规划和回溯。
手撕代码，勤加练习：
- 不要只看不练，对于LR, SVM, K-Means, Word2Vec等经典模型,一定要亲手实现一遍。
- 在LeetCode上专门练习“中等”难度的题目，培养快速、准确写出代码的能力。
复盘项目，深入思考：

梳理自己的简历项目，对每个项目都要能讲出上述开放性问题中提到的所有细节，特别是“挑战”和“反思”部分,最能体现你的水平。
关注业务，拓展视野：

网易的业务以游戏、音乐、电商、教育等为主，可以多思考AI在这些场景下的应用，例如游戏中的AI NPC、音乐推荐、电商的智能搜索等,这有助于你更好地回答开放性问题。
模拟实战，把控时间：

找一些公司的往年真题（如阿里、腾讯、字节等）进行限时模拟训练,合理分配编程题和理论题的时间。