ChatGPT解决这个技术问题 Extra ChatGPT

如何加入第一行

我将使用一个具体但假设的例子。

每个订单通常只有一个订单项:

订单:

OrderGUID   OrderNumber
=========   ============
{FFB2...}   STL-7442-1      
{3EC6...}   MPT-9931-8A

订单项:

LineItemGUID   Order ID Quantity   Description
============   ======== ========   =================================
{098FBE3...}   1        7          prefabulated amulite
{1609B09...}   2        32         spurving bearing

但偶尔会有一个包含两个订单项的订单:

LineItemID   Order ID    Quantity   Description
==========   ========    ========   =================================
{A58A1...}   6,784,329   5          pentametric fan
{0E9BC...}   6,784,329   5          differential girdlespring 

通常在向用户显示订单时:

SELECT Orders.OrderNumber, LineItems.Quantity, LineItems.Description
FROM Orders
    INNER JOIN LineItems 
    ON Orders.OrderID = LineItems.OrderID

我想在订单上显示单个项目。但是这个偶尔包含两个(或更多)项目的订单,订单会出现重复:

OrderNumber   Quantity   Description
===========   ========   ====================
STL-7442-1    7          prefabulated amulite
MPT-9931-8A   32         spurving bearing
KSG-0619-81   5          panametric fan
KSG-0619-81   5          differential girdlespring

我真正想要的是让 SQL Server 选择一个,因为它已经足够好了:

OrderNumber   Quantity   Description
===========   ========   ====================
STL-7442-1    7          prefabulated amulite
MPT-9931-8A   32         differential girdlespring
KSG-0619-81   5          panametric fan

如果我敢于冒险,我可能会向用户展示一个省略号,以表明不止一个:

OrderNumber   Quantity   Description
===========   ========   ====================
STL-7442-1    7          prefabulated amulite
MPT-9931-8A   32         differential girdlespring
KSG-0619-81   5          panametric fan, ...

所以问题是如何

消除“重复”行

只加入其中一行,以避免重复

第一次尝试

我第一次天真的尝试是只加入“TOP 1”行项目:

SELECT Orders.OrderNumber, LineItems.Quantity, LineItems.Description
FROM Orders
    INNER JOIN (
       SELECT TOP 1 LineItems.Quantity, LineItems.Description
       FROM LineItems
       WHERE LineItems.OrderID = Orders.OrderID) LineItems2
    ON 1=1

但这给出了错误:

列或前缀“订单”与查询中使用的表名或别名不匹配。

大概是因为内部选择没有看到外部表。

不能使用 group by 吗?
我认为(如果我错了,请纠正我)group by 需要列出所有其他列,不包括您不想重复的列。 Source

A
Alexander Schmidt
SELECT   Orders.OrderNumber, LineItems.Quantity, LineItems.Description
FROM     Orders
JOIN     LineItems
ON       LineItems.LineItemGUID =
         (
         SELECT  TOP 1 LineItemGUID 
         FROM    LineItems
         WHERE   OrderID = Orders.OrderID
         )

在 SQL Server 2005 及更高版本中,您只需将 INNER JOIN 替换为 CROSS APPLY

SELECT  Orders.OrderNumber, LineItems2.Quantity, LineItems2.Description
FROM    Orders
CROSS APPLY
        (
        SELECT  TOP 1 LineItems.Quantity, LineItems.Description
        FROM    LineItems
        WHERE   LineItems.OrderID = Orders.OrderID
        ) LineItems2

请注意,没有 ORDER BYTOP 1 不是确定性的:此查询将为每个订单获取一个订单项,但未定义它将是哪一个。

查询的多次调用可以为同一订单提供不同的行项目,即使底层证券没有改变。

如果您想要确定的顺序,您应该在最里面的查询中添加一个 ORDER BY 子句。

Example sqlfiddle


很好,很有效;将 TOP 1 从派生表子句移动到联接子句。
并且“OUTER JOIN”等价物将是“OUTER APPLY”
LEFT OUTER JOIN 怎么样?
如果连接是通过复合键/有多个列,你怎么做?
CROSS APPLY 代替 INNER JOINOUTER APPLY 代替 LEFT JOIN(与 LEFT OUTER JOIN 相同)。
J
Justin Fisher

我知道这个问题不久前就得到了回答,但是在处理大型数据集时,嵌套查询可能会很昂贵。这是一个不同的解决方案,其中嵌套查询将只运行一次,而不是针对返回的每一行。

SELECT 
  Orders.OrderNumber,
  LineItems.Quantity, 
  LineItems.Description
FROM 
  Orders
  INNER JOIN (
    SELECT
      Orders.OrderNumber,
      Max(LineItem.LineItemID) AS LineItemID
    FROM
      Orders INNER JOIN LineItems
      ON Orders.OrderNumber = LineItems.OrderNumber
    GROUP BY Orders.OrderNumber
  ) AS Items ON Orders.OrderNumber = Items.OrderNumber
  INNER JOIN LineItems 
  ON Items.LineItemID = LineItems.LineItemID

如果您的“LineItemId”列未正确编入索引,这也会快得多。与接受的答案相比。
但是,如果 Max 不可用,因为您需要按与要返回的列不同的列进行排序,您将如何执行此操作?
您可以以任何您想要的方式订购派生表,并在 SQL Server 中使用 TOP 1 或在 MySQL 中使用 LIMIT 1
发现这在更大的数据集上要快得多
你能详细说明一下吗?仅就语法而言,您的答案与 Quassnoi 的一样嵌套:恰好一个子查询。您不能仅仅暗示一个将“为返回的每一行”运行,而另一个不会仅仅因为语法看起来如此。你必须包括一个计划。
C
Community

@Quassnoi 的回答很好,在某些情况下(尤其是在外部表很大的情况下),更有效的查询可能是使用窗口函数,如下所示:

SELECT  Orders.OrderNumber, LineItems2.Quantity, LineItems2.Description
FROM    Orders
LEFT JOIN 
        (
        SELECT  LineItems.Quantity, LineItems.Description, OrderId, ROW_NUMBER()
                OVER (PARTITION BY OrderId ORDER BY (SELECT NULL)) AS RowNum
        FROM    LineItems

        ) LineItems2 ON LineItems2.OrderId = Orders.OrderID And RowNum = 1

有时您只需 need to test 哪个查询提供更好的性能。


这是我发现的唯一一个真正的“左”连接的答案,这意味着它不会在“左”表中添加更多行。您只需要放入子查询并添加“其中 RowNum 不为空”
同意这是最好的解决方案。此解决方案还不需要您在要加入的表中具有唯一 ID,并且比投票最多的答案要快得多。您还可以通过在子查询中使用 ORDER BY 子句来为您希望返回的行添加条件,而不是仅仅采用随机行。
这是一个很好的解决方案。请注意:在您自己的情况下使用时,请非常小心您的 PARTION BY (通常您可能确实需要一些 ID 列)和 ORDER BY (这可以由大多数任何东西完成,具体取决于您要保留的行,例如DateCreated desc 将是某些表的一种选择,但这取决于很多事情)
OVER 子句中的 (SELECT NULL) 意味着什么?
T
Tomalak

你可以这样做:

SELECT 
  Orders.OrderNumber, 
  LineItems.Quantity, 
  LineItems.Description
FROM 
  Orders INNER JOIN LineItems 
  ON Orders.OrderID = LineItems.OrderID
WHERE
  LineItems.LineItemID = (
    SELECT MIN(LineItemID) 
    FROM   LineItems
    WHERE  OrderID = Orders.OrderID
  )

这需要 LineItems.LineItemID 上的索引(或主键)和 LineItems.OrderID 上的索引,否则会很慢。


如果 Orders 没有 LineItems,这将不起作用。然后子表达式计算 LineItems.LineItemID = null 并从结果中完全删除左侧实体订单。
这也是内部连接的效果,所以...是的。
可适用于 LEFT OUTER JOIN 的解决方案:stackoverflow.com/a/20576200/510583
@leo是的,但是OP自己使用了内部连接,所以我不明白您的反对意见。
P
P. Olesen

从 SQL Server 2012 起,我认为这可以解决问题:

SELECT DISTINCT
    o.OrderNumber ,
    FIRST_VALUE(li.Quantity) OVER ( PARTITION BY o.OrderNumber ORDER BY li.Description ) AS Quantity ,
    FIRST_VALUE(li.Description) OVER ( PARTITION BY o.OrderNumber ORDER BY li.Description ) AS Description
FROM    Orders AS o
    INNER JOIN LineItems AS li ON o.OrderID = li.OrderID

如果你问我最好的答案。
我认为这是最好的答案
a
avb

,另一种使用公用表表达式的方法:

with firstOnly as (
    select Orders.OrderNumber, LineItems.Quantity, LineItems.Description, ROW_NUMBER() over (partiton by Orders.OrderID order by Orders.OrderID) lp
    FROM Orders
        join LineItems on Orders.OrderID = LineItems.OrderID
) select *
  from firstOnly
  where lp = 1

或者,最后也许你想显示所有加入的行?

逗号分隔的版本在这里:

  select *
  from Orders o
    cross apply (
        select CAST((select l.Description + ','
        from LineItems l
        where l.OrderID = s.OrderID
        for xml path('')) as nvarchar(max)) l
    ) lines

R
Racil Hilan

相关子查询是依赖于外部查询的子查询。这就像 SQL 中的 for 循环。子查询将为外部查询中的每一行运行一次:

select * from users join widgets on widgets.id = (
    select id from widgets
    where widgets.user_id = users.id
    order by created_at desc
    limit 1
)

A
Anand

我最喜欢运行此查询的方式是使用 not exists 子句。我相信这是运行此类查询的最有效方法:

select o.OrderNumber,
       li.Quantity,
       li.Description
from Orders as o
inner join LineItems as li
on li.OrderID = o.OrderID
where not exists (
    select 1
    from LineItems as li_later
    where li_later.OrderID = o.OrderID
    and li_later.LineItemGUID > li.LineItemGUID
    )

但是我没有针对这里建议的其他方法测试这种方法。


P
Peter Radocchia

编辑:没关系,Quassnoi 有一个更好的答案。

对于 SQL2K,如下所示:

SELECT 
  Orders.OrderNumber
, LineItems.Quantity
, LineItems.Description
FROM (  
  SELECT 
    Orders.OrderID
  , Orders.OrderNumber
  , FirstLineItemID = (
      SELECT TOP 1 LineItemID
      FROM LineItems
      WHERE LineItems.OrderID = Orders.OrderID
      ORDER BY LineItemID -- or whatever else
      )
  FROM Orders
  ) Orders
JOIN LineItems 
  ON LineItems.OrderID = Orders.OrderID 
 AND LineItems.LineItemID = Orders.FirstLineItemID

K
Krease

尝试了十字架,效果很好,但需要的时间稍长。调整行列以具有最大值并添加保持速度并丢弃额外记录的组。

这是调整后的查询:

SELECT Orders.OrderNumber, max(LineItems.Quantity), max(LineItems.Description)
FROM Orders
    INNER JOIN LineItems 
    ON Orders.OrderID = LineItems.OrderID
Group by Orders.OrderNumber

但是在两列上分别设置最大值意味着数量可能与描述无关。如果订单是 2 个小部件和 10 个小工具,则查询将返回 10 个小部件。
I
Ian Boyd

尝试这个

SELECT
   Orders.OrderNumber,
   LineItems.Quantity, 
   LineItems.Description
FROM Orders
   INNER JOIN (
      SELECT
         Orders.OrderNumber,
         Max(LineItem.LineItemID) AS LineItemID
       FROM Orders 
          INNER JOIN LineItems
          ON Orders.OrderNumber = LineItems.OrderNumber
       GROUP BY Orders.OrderNumber
   ) AS Items ON Orders.OrderNumber = Items.OrderNumber
   INNER JOIN LineItems 
   ON Items.LineItemID = LineItems.LineItemID

请考虑解释您的查询如何解决 OP 的问题
这看起来与贾斯汀费舍尔的答案相同。