v2: remove remaining logit scaling hacks from batch/optimized paths

2026-07-05 22:41:49 +08:00
parent 239474bef0
commit 7a8edf77ee
3 changed files with 0 additions and 32 deletions
@@ -161,12 +161,6 @@ extension E4BModel {
            cmdBuf: cmdBuf
        )
        // Logits scaling
        if embedWeight.groupSize == 32 && embedWeight.inDim == hiddenSize {
            let logitsScale = Float(30.0 / 116.23 / sqrt(Float(hiddenSize)))
            try scaleBufferOptimized(logitsBuffer, scale: logitsScale, count: vocabSize, cmdBuf: cmdBuf)
        }
        // Softcapping
        if let cap = finalLogitSoftcapping {
            try applyLogitSoftcappingOptimized(
@@ -160,26 +160,6 @@ embedCmdBuf.waitUntilCompleted()
        encLM.dispatchThreads(gridLM, threadsPerThreadgroup: tgLM)
        encLM.endEncoding()
        // Logits scaling and softcapping (batch)
        if embedWeight.groupSize == 32 {
            let logitsScale = Float(30.0 / 116.23 / sqrt(Float(hiddenSize)))
            // Use eltwise_scale for batch scaling
            let pso = try engine.pipeline(named: "eltwise_scale")
            let enc = layerCmdBuf.makeComputeCommandEncoder()!
            enc.setComputePipelineState(pso)
            enc.setBuffer(context.batchOutputBuffer, offset: 0, index: 0)
            var ls = logitsScale
            enc.setBytes(&ls, length: 4, index: 1)
            var total = UInt32(batchSize * vocabSize)
            enc.setBytes(&total, length: 4, index: 2)
            let tg = MTLSize(width: 256, height: 1, depth: 1)
            let grid = MTLSize(width: batchSize * vocabSize, height: 1, depth: 1)
            enc.dispatchThreads(grid, threadsPerThreadgroup: tg)
            enc.endEncoding()
        }
        // Softcapping (skip if kernel not found)
        if let cap = finalLogitSoftcapping {
            // Try to use tanh_scale kernel
@@ -110,12 +110,6 @@ extension E4BModel {
        try quantizedMatmulOptimized(input: lmInput, weights: embedWeight, 
                                     output: logitsBuffer, cmdBuf: cmdBuf3)
        // Logits scaling (if needed)
        if embedWeight.groupSize == 32 && embedWeight.inDim == hiddenSize {
            let logitsScale = Float(30.0 / 116.23 / sqrt(Float(hiddenSize)))
            try scaleBufferOptimized(logitsBuffer, scale: logitsScale, count: vocabSize, cmdBuf: cmdBuf3)
        }
        // Logit softcapping
        if let cap = finalLogitSoftcapping {
            try applyLogitSoftcappingOptimized(buffer: logitsBuffer, cap: cap,